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采用 Scala 语言 编写 实现 的 ， 大 数据 领域 最 火爆 的 计算 框架 Spark (其 实 Spark 在 Apache 
下 的 数据 处 理 领 域 也 是 最 火爆 的 计算 框架 ) ， 正 在 以 迅雷 不 及 掩 耳 之 势 快速 发 展 。 很 少 有 一 
门 语言 能 够 像 Scala 这 样 ， 因 其 作为 大 数据 框架 Spark 的 核心 和 首选 开发 语言 而 爆发 式 地 普 
及 起 来 。Spark 本 身 起 源 于 2009 年 ， 是 美国 加 州 大 学 伯克利 分 校 AMP 实验 室 的 一 个 研究 性 
项 目 ， 于 2010 EFW, Æ 2014, 2015 年 大 数据 领域 软件 排名 中 ，Spark 都 以 绝对 优势 遥遥 
领先 ! 虽然 基于 Spark 平台 可 以 采用 Scala, Java, Python, R 等 4 种 语言 开发 ， 但 据 Spark 官 
方 统计 ，2014 年 和 2015 年 全 世界 范围 内 基于 Spark 开发 采用 最 多 的 语言 一 直 都 是 Scala。 男 
外 ， 在 大 数据 领域 越 来 越 多 的 其 他 技术 框架 ， 例 如 Kafka 等 也 都 把 Scala 作为 实现 和 开发 语 
言 。 因 此 ， 为 了 打 好 大 数据 领域 学 习 的 基础 ， 本 书面 向 广大 Scala 爱好 者 和 大 数据 开发 者 ， 
以 实战 为 主导 ， 并 用 实战 与 理论 相 结合 的 方式 来 帮助 读者 学 习 Scala 语言 。 

从 2012 年 美国 政府 的 “大 数据 研发 计划 ”， 到 2015 年 我 国 国务 院 发 布 的 《促进 大 数 
据 发 展 行动 纲要 》， 可 以 说 ， 大 数据 已 经 迎 来 了 它 的 黄金 时 代 。 本 书 紧 跟 时 代 潮 流 ， 除 了 
讲解 Scala 语言 之 外 ， 还 额外 挑选 了 当前 在 大 数据 领域 中 应 用 非常 广泛 Akka 和 Kafka 两 大 
框架 进行 讲解 ， 并 且 详 细 讲 解 了 Scala 语言 在 其 中 的 应 用 。Akka 是 一 个 在 JVM 上 构建 高 
并 发 、 分 布 式 和 可 快速 恢复 的 消息 驱动 应 用 的 工具 包 ; Kafka 是 高 产 出 的 分 布 式 消息 系 
统 ， 它 实现 了 生产 者 和 消费 者 之 间 的 无 颖 连接， 实现 了 处 理 速度 快 、 高 可 扩展 性 的 分 布 
式 实时 系统 。 

本 书 编写 的 主线 是 以 Scala 实战 实例 为 主导 ， 由 浅 入 深 ， 从 Scala 的 基础 篇 、 中 级 篇 直 
至 高 级 篇 ， 对 Scala 各 个 知识 点 加 以 详细 分 析 并 给 出 相应 的 实例 及 解析 。 然 后 更 进一步 地 引 
入 分 布 式 框架 篇 ， 针 对 当前 大 数据 领域 使 用 非常 广泛 的 大 分 布 式 框架 Akka 和 Kafka， 通 过 
介绍 Scala 语言 在 开发 分 布 式 框架 时 的 实战 案例 ， 为 读者 进一步 学 习 大 数据 领域 各 个 框架 打 
好 基础 。 

参与 本 书 编写 的 有 王家 林 、 段 知 华 、 管 祥 青 、 徐 奔 、 张 敏 、 徐 香 玉 等 。 

本 书 能 顺利 出 版 ， 离 不 开 出 版 社 编辑 们 的 大 力 支持 与 帮助 ， 在 此 表示 诚挚 的 感谢 。 

非常 感谢 本 书 的 技术 审核 徐 香 玉 为 审核 本 书 技术 相关 内 容 所 做 出 的 努力 。 

在 阅读 本 书 的 过 程 中 ,， 若 发 现任 何 问题 或 有 任何 疑问 ， 可 以 加 入 本 书 的 阅读 群 
(QQ: 418110145) 提出 讨论 ， 会 有 专人 帮忙 答疑 。 同 时 ， 该 群 中 也 会 提供 本 书 所 用 实 
例 代码 。 

如 果 读 者 想 要 了 解 或 者 学 习 更 多 大 数据 相关 技术 ， 可 以 通过 以 下 方式 参与 互动 
交流 : 

关注 DT 大 数据 梦 工 厂 微 信 公 众 号 : DT_Spark 及 QQ 群 : 163728659， 或 者 通过 扫描 下 
方 二 维 码 咨询 ， 也 可 以 通过 YY 客户 端 登 录 68917580 永久 频道 直接 体验 。 
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我 的 新 浪 微 博 是 http ://wei bo. com/ilovepains/ ， 也 欢迎 大 家 在 微 博 上 进行 互动 。 
由 于 时 间 仓 促 ， 书 中 难免 存在 不 妥 之 处 ， 请 读者 谅解 ， 并 提出 


宝贵 意见 。 


王家 林 
2016. 1. 18 日 于 北京 
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作为 本 书 的 开篇 ， 本 篇 将 从 零 开 始 引导 读者 由 浅 入 深 ， 循序渐进， 依照 图 例 的 


指引 一 步 一 步 地 真正 动手 搭建 Scala 编程 环境 及 大 数据 实验 环境 。 本 篇 由 最 基本 的 
Scala 语法 开始 讲 起 ， 让 读者 在 理解 语法 的 基础 上 动手 编程 实验 ， 逐 步 学 会 Scala 基 
本 编程 ， 为 后 续 学 习 Scala 中 高 级 篇 的 高 级 语法 ， 以 及 基于 Scala 的 三 大 主流 分 布 
式 大 数据 框架 打下 坚实 的 基础 。 

本 篇 共 3 章 ， 第 1 章 介 绍 了 Scala 零 基础 入 门 的 环境 搭建 及 Scala 的 基础 语法 知 
识 ; 第 2 章 基于 基础 语法 ， 以 实例 分 析 的 形式 详解 Scala 面向 对 象 的 编程 开发 ; 第 
3 章 讲解 了 Scala 的 函数 式 编程 ， 并 以 实例 分 析 的 形式 详解 其 中 的 高 阶 函 数 应 用 。 


第 人 1 章 Scala 零 基础 入 门 


IR Seala BEMAN > 


本 章 将 通过 详细 的 图 例 ， 清 晰 地 介绍 了 Scala 实验 环境 的 搭建 (包括 Scala 安装 、Ha- 
doop 安装 及 MapReduce 词 频 统计 、Spark 安装 、Scala IDE 安装 ) ，Scala 的 基础 知识 (变量 、 
函数 、 流 程控 制 、 异 常 处 理 ) Scala Tuple Array, Map 与 文件 操作 ， 以 及 Scala apply 应 用 
等 内 容 。 


Scala 概述 


曾经 有 人 问 Java 的 创始 人 高 斯 林 (James Gosling) 这 样 一 个 问题 : “除了 Java 语言 以 外 ， 
您 现在 还 使 用 JVM (Java Virtual Machine, Java 虚拟 机 ) 上 的 哪 种 编程 语言 ?” 他 之 不 犹 殉 地 
说 是 Scala, Scala 是 一 门 集成 面向 对 象 和 函数 式 特性 的 语言 ， 它 的 创始 人 是 Martin Ordersky。 
Martin Ordersky 也 是 Javac 编译 器 的 作者 ， 他 曾 将 泛 型 引入 到 Java 语言 中 。 因 为 Java 是 强 约束 
的 语言 ， 出 于 Java 本 身 设计 上 的 局 限 性 ， 诸 如 函数 式 编 程 等 特性 在 Java 8 之 前 都 没有 实现 ， 因 
此 Martin Ordesky 设想 基于 JVM 和 Java 类 库 ， 创 建 一 个 比 Java 更 高 级 的 语言 。 他 于 2001 年 开 
始 基 于 Funnel 语言 设计 Scala, Œ 2003 年 年 底 Scala 发 布 正式 (基于 Java 平台) 版 本 。 

截至 2016 年 1 H, Scala 2. 12 系列 的 最 新 版 本 是 Scala 2. 12.0 - M3, Scala 2. 11 系列 的 
最 新 版 本 是 Scala 2. 11.7。2016 年 ，Scala 2.11 系列 预计 于 一 季度 实现 Scala 2.11.8 版 本 ， 
在 三 季度 实现 Scala 2. 11. 9 版 本 ; Scala 2. 12 系列 预计 在 二 季度 重点 实现 Scala 2. 12. 0 - RC1 
版 本 ， 在 2. 12 系列 的 两 个 里 程 碑 Scala 2. 12.0 - M4 及 Scala 2. 12. 0 -M5 Scala 版 本 中 Scala 
编译 器 将 会 有 很 大 的 变化 ， 包 括 Lambda 表达 式 和 使 用 新 的 编码 方式 ， 充 分 利用 Java 8 的 新 
特性 ， 以 及 Scala 的 优化 等 。 

Scala 是 一 个 运行 在 Java 虚拟 机 环境 (JVM) 中 将 面向 对 象 编 程 和 函数 式 编程 的 最 佳 特 
性 完美 结合 起 来 具有 强大 类 型 系统 的 ， 优 雅 、 简 洛 的 语言 。 

Scala 语言 的 优势 如 下 : 

1) Scala 是 面向 对 象 编程 语言 : 在 Scala 中 ， 所 有 预先 定义 的 类 型 是 对 象 ， 所 有 用 户 定 
义 的 类 型 也 是 对 象 ， 每 个 操作 都 是 方法 调用 。 

2) Scala 是 函数 式 编程 语言 : 在 Scala H, KAE ALEAR”, KAO PA BEY MB 
传递 给 其 他 函数 ， 也 可 以 当成 结果 返回 或 保存 为 变量 。Scala 编写 的 代码 简洁 、 优 雅 ， 同 时 
又 具备 丰富 的 表达 能 力 ， 在 实际 开发 过 程 中 推荐 使 用 大 量 不 可 变 的 变量 及 无 副作用 的 函数 进 
行 代 码 编 写 ; Scala 支持 匿名 函数 、 高 阶 函 数 、 柯 里 化 函数 、 函 数 舰 套 的 应 用 ; 相对 于 指令 
式 编程 语言 而 言 ，Scala 可 以 使 用 更 少 的 代码 量 来 实现 相同 的 功能 ， 充 分 体现 出 Scala 语言 简 
洁 、 精 炼 、 优 雅 的 特点 。 


语言 基础 与 开发 实战 


3) 静态 强 类 型 和 丰富 的 泛 型 特性 : Scala 语言 是 一 门 静 态 类 型 的 语言 ， 具 备 本 地 类 型 推 
断 的 类 型 系统 ， 允 许 使 用 泛 型 参数 化 类 型 。 
4) Scala 与 Java 能 够 无 颖 集成 ，Scala 与 Java 有 很 强 的 兼容 性 ，Scala 程序 被 编译 成 JVM F 


节 码 ，Scala 大 量 重用 了 Java 的 类 型 。Java 语言 开发 的 库 ， 大 部 分 可 以 直接 在 Scala 语言 中 使 用 。 

Scala 语言 拥有 面向 对 象 编程 和 函数 式 编 程 的 集成 优势 ， 因 此 ， 国 外 很 多 知名 公司 选择 
Scala 语言 进行 大 型 项 目 开发 及 复杂 数据 处 理 。Scala 语言 是 Twitter, LinkedIn 等 公司 的 核心 
编程 语言 ， Twitter, LinkedIn 的 很 多 基础 框架 都 使 用 Scala 语言 编写 。 

在 大 数据 领域 中 ， 新 一 代 分 布 式 计算 系统 Spark 能 同时 在 一 个 平台 上 完成 批 处 理 、 机 器 
学 习 、 流 式 计算 、 图 计算 、SQL 查询 等 功能 ， 因 此 得 到 了 广泛 应 用 。 在 国外 ，Yahoo!、In- 
tel, Amazon, Cloudera 等 公司 大 规模 运用 Spark 技术 ， 内 的 阿里 巴巴 、 腾 讯 、 百 度 、 华 为 
等 公司 纷纷 加 入 Spark 阵营 。 而 Spark 的 核心 代码 就 是 使 用 Scala 语言 开发 的 ， 虽然 在 Spark 
中 可 以 使 用 Scala 、Java、Python 语言 进行 分 布 式 程序 开发 ， 但 Spark 提供 的 首选 编程 开发 语 
言 就 是 Scala， 而 Spark 已 经 成 为 事实 上 的 大 数据 分 布 式 计算 的 标准 。 

Kafka 是 由 LinkedIn 开发 的 用 于 日 志 人 处 理 的 分 布 式 消息 队列 ，Kafka 使 用 Scala 语言 开 
发 。 各 个 开源 分 布 式 处 理 系统 Cloudera, Apache Storm, Spark 都 支持 与 Kafka 集成 。 其 日 志 
处 理 的 一 个 场景 : Katka 采集 日 志 以 后 ， 经 过 Spark 分 布 式 计算 ， 将 日 志 数据 导入 到 Hbase 
H, Kafka 采集 的 日 志 主要 包括 用 户 行为 及 系统 运行 日 志 等 。 在 大 数据 领域 中 ，Spark 、Ak- 
ka, Kafka 都 是 用 Scala 语言 开发 的 ， 因 此 凸显 了 Scala 语言 的 巨大 价值 。 


Windows 及 Linux 下 Scala 运行 环境 安装 配置 


软件 工具 准备 


在 Windows 中 安装 Scala， 需 安装 的 软件 包括 : 

1) JDK (Java Development Kit) ; Java 语言 软件 开发 工具 包 。 

2) Seala 2.10.4, 

在 Linux 下 安装 Scala， 推 荐 在 Windows 下 安装 VMware Workstation 虚拟 机 ， 然 后 在 VM- 
ware Workstation 虚拟 机 下 安装 Linux 系统 ， 这 样 就 可 以 在 虚拟 机 的 Linux 下 进行 Scala 及 
Spark 的 学 习 ， 需 安装 的 软件 包括 : 

1) VMware Workstation 虚拟 机 。 

2) Linux 操作 系统 。 

3) Winscp。 

4) JDK。 

5) 远程 连接 工具 PieTTY 0. 3. 25, 

PieTTY 是 远程 连接 Linux 工具 ， 支 持 SSH (Secure Shell) 安全 外 壳 协 议和 Telnet。PieT- 
TY 不 需要 安装 ， 在 网 上 下 载 以 后 直接 打开 使 用 。 在 Windows 系统 中 启动 VMware Workstation 
的 Linux 虚拟 机 以 后 ， 使 用 PieTTY 能 快速 接 到 Linux 虚拟 机 ， 快 捷 方便 地 进行 Linux 的 相关 


配置 。 这 里 ，Windows 虚拟 网 卡 配置 的 地 址 为 192. 168. 2. 1; Linux 虚拟 机 的 网 卡 地 址 为 
192. 168. 2. 100。 登 录 PieTTY 工具 如 图 1-1 所 示 。 
起 PieTTY Configuration a 


It's Easy To Create Your Connection. 


Host Name (or IP address) Port 
192.168.2.100 vy) 22 

© Telnet (BBS) @ SSH 

User Interface 

¥|Menubar | |PuTTY mode [V] English UI 


PieTTY 


Pie TTY v0.3.25 (formerly "pputty ) by 
Hung-Te Lin <piaip@csie.org> 


1-1 登录 PieTTY TA 


双击 PieTTY， 打 开 Pie TTY 的 配置 页 面 ， 在 IP 地 址 及 端口 号 文本 框 中 输入 Linux 虚拟 机 
的 地 址 及 端口 号 ， 单 击 Open 按钮 ， 输 入 Linux 的 用 户 和 名 和 密码 ， 就 可 以 连接 上 Linux 虚 
拟 机 。 

6) 文件 传输 工具 WinSCP。 

WinSCP 支持 SCP 协议 ， 可 以 在 Windows 环境 下 使 用 WinSCP 客户 端 ， 从 本 地 计算 机 连 
接 到 远程 计算 机 复制 文件 。 从 本 地 的 Windows 系统 中 使 用 WinSCP 工具 连接 到 VMware Work- 
station Linux 虚拟 机 系统 ， 在 Linux 虚拟 机 无 法 连接 外 网 下 载 系统 应 用 软件 的 时 候 ， 先 将 需 
要 下 载 安 装 的 软件 包 下载 到 Windows 本 地 ， 再 使 用 WinSCP 工具 传 到 Linux 虚拟 机 进行 安装 。 

从 网 上 下 载 WinSCP, 一步 步 安装 ， 安 装 完成 以 后 双击 WinSCP， 打 开 WinSCP 客户 端 ， 
如 图 1-2 所 示 。 


Session hadoop root@192.168.80.100 New 

: | Stored sessions | | hadoop@192.168.2.100 spark | 

$- Logging Edit 
Environment 

+- Directories Delete 

‘~ Recycle bin SS 

SFTP me] | 

i- SCP/Shell Tee 
Connection New folder... 

i. Proxy [一 

‘= Tunnel Shell icons: 
SSH SSS 

+- Key exchange 

‘~ Authentication | 

£. Bugs | 
Preferences 

. a | 

V| Advanced options | 


Ra [Eee = Gio) (Se | Eeea| 


图 1-2 登录 WinSCP 客户 端 
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单 击 New 按钮 ， 弹 出 WinSCP Login 对 话 框 ， 在 页 面 中 输入 连接 的 虚拟 机 地 址 及 端口 ， 


如 图 1-3 所 示 。 


Session 
File protocol: 
SFTP 


Host name: 


192.168.2.100| 


User name: 
hadoop 


Private key file: 


$ 


图 1-3 WinSCP 输入 地 址 及 端口 


单 击 Login 按钮 ， 进 入 文件 传输 页 面 ， 左 侧 显示 本 地 主机 Windows 的 文件 系统 ， 右 侧 显 
示 远 程 Linux 虚拟 机 的 文件 系统 。 使 用 WinSCP 工具 可 以 方便 地 将 Windows 本 地 文件 直接 拖 
人 到 远程 虚拟 机 文件 系统 中 。 如 图 1-4 所 示 。 


A setup_tools - hadoop@192.168.2.100 spark - WinSCP lola jes 


= Local Mark Files Commands Session Options Remote Help 


ee 加 图 - Seger Sa + 


hadoop@192.168.2.100 spark | + 


3 O È Default - @- 


eg G: 新 加 卷 -aies MAAA Yseupte-G e+ >- BH a [|e 
|| G:\IMFBigDataSpark20 16 \Bigdata_Software 
| Name Ext “|| Name Ext = 
| B scala-SDK-4.3.0-vfinal-2.11-win32.win32.x86 L scala-2.10.4 

Wi eclipse-jee-mars-1-win32.zip WD spark-1.0,0-bin-hadoop1 

=] winutils.exe [|| ds jdk1.7.0_79 

Wa spark-1.6.0-bin-hadoop2.6.tgz Whadoop-2.6.0tar.gz gz! 
| Wai idk-8u65-linux-i586.gz a È scala-2.10.4.tgz 
| [ó]jdk-8u65-windows-i586.exe 1 Wi spark-1.0.0-bin-hadoop1.tgz 
| WB scala-SDK-4.3.0-vfinal-2.11-win32.win32.x86.zip Ü hadoop-1.2.1-bin.tar.gz 

idealC-15.0.2.exe Wa idk-8u65-linux-i586.gz 

Wi scala-2.10.4.tgz ~ | | Bj spark-1.6.0-bin-hadoop2.6.tgz = 


i] 


Kl 1-4 WinSCP 文件 复 


| Windows 环境 下 的 Scala 安装 


1. Windows JDK 的 安装 与 配置 

(1) FÆ JDK 

要 在 Java 虚拟 机 环境 中 运行 Scala， 首 先 要 下 载 安装 JDK， 可 以 在 Oracle 的 官方 网 站 
(http://www. oracle. com/technetwork/java/javase/ downloads/jdk8 - downloads - 2133151. html ) 
下 载 JDK。 下 载 Java SE Development Kit 8u65 之 前 ， 先 选择 Accept License Agreement 单 选 按 
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钮 ， 选 择 JDK 8 的 使 用 条 款 ， 根据 机 器 的 操作 系统 类 型 下 载 相 应 的 安装 包 ， 如 果 是 32 位 的 
Windows 系统 ， 下 载 安 装 JDK - 8u65 - Windows — i586. exe; 如 果 是 64 位 的 Windows 系统 ， 
下 载 安装 JDK -8u65 - Windows - x64. exe。 下 载 保存 到 本 地 目录 。 
(2) 安装 JDK > 
双击 JDK - 8u65 - Windows — i586. exe 开始 安装 ， 根 据 JDK 8 的 安装 指导 单 击 “ 下 一 步 ” 
按钮 进行 安装 ， 如 图 1-5 所 示 。 
单 击 “ 下 一 步 ”按钮 ， 如 图 1-6 所 示 。 


i : 9 去 装 向 导 从 下 面 的 列表 中 选择 要 安装 的 可 选 功能 。 您 可 以 在 支 装 后 使 用 控制 面板 中 的 "添加 刷 除 程序 * 
欢迎 使 用 Java SE 开发 工具 包 3 Update 65 的 安装 向导 ean j 
| | 功能 说 明 
本 向 导 将 指导 您 完成 Java SE 开发 工具 包 8 Update 65 的 安装 过 程 。 | S Java SE Development 
PER Reo Emenee | 
iva Mission 
Control 工具 会 件 。 它 要 求 硬盘 
驱动 器 上 有 180Me 空间 。 
Java Mission Control 分 析 和 诊断 工具 套件 现在 作为 JDK 的 一 部 分 提供 。 |) Z3: 
| || C:\Program Files\Java\jdk1.8.0_65\ 
Lst=#® |_B-#0>) Ba) 
图 1-5 JDK 安装 图 1-6 设置 JDK 安装 目录 


在 对 话 框 中 单 击 “ 更 改 ”按钮 ， 可 以 更 改 JDK 8 的 安装 目录 ， 更 改 完 成 后 按照 JDK 的 
安装 提示 单 击 “ 下 一 步 ”按钮 继续 安装 ， 即 可 完成 JDK 的 安装 。 

(3) 配置 JDK 环境 变量 

JDK 安装 完成 以 后 ， 配 置 JDK 的 环境 变量 JAVA_HOME 及 Path。 在 Windows 7 操作 系统 
中 ， 用 鼠标 右键 单 击 “ 我 的 电脑 ”选择 “属性 ”一 “高 级 系统 配置 ”一 “高 级 ”命令 ， 弹 
出 “系统 属性 ”对 话 框 ， 如 图 1-7 所 示 。 

单 击 “ 环 境 变 量 ” 按 钮 进入 “环境 变量 ”对 话 框 ， 如 图 1-8 所 示 。 


Bt snes ee r | [Rese pp 
计算 机 名 | 硬件 | 高 级 ”| 系统 保护 | 远程 


| admin 的 用 户 变量 U 
要 进行 大 多 数 更 改 ， 您 必须 作为 管理 员 登 录 。 
性 能 变量 值 ja 
视觉 效果 ， 处 理 器 计划 ， 内 存 使 用 ， 以 及 虚拟 内 存 Fani Dane Di 2 E 
| SPLUNK_HOME C:\Program Files\splunk\bin 
R . TEMP SUSERPROFILE® \AppData\Local \Temp 
(BES...) THP XIISRRPRNFTI EYS AnnNat atlara] \Temn 
用 户 配置 文件 HEW.. | RED...) C WRD | 
与 您 登录 有 关 的 桌面 设置 | | | 
ET | 系统 变量 (5) | 
变量 值 z 
启动 和 故障 恢复 A = Windows_HT a 
FERRED. AERA | | Path D:\Perl si te\bin;D: \Perlibin:6:... | 
a | PATHEXT . COM; . EXE; . BAT; . CMD; . ¥BS;. VBE;.... 
(RHO... | PROCESSOR AR ¥f x | 
$2 0)... | | 编辑 (1)... WRL) | 
确定 取消 
[确定 取消 | | BAW 


图 1-7 “系统 属性 ”对 话 框 图 1-8 “环境 变量 ”对 话 村 


TH 
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如 果 没 有 JAVA_HOME 系统 变量 ， 单 击 “ 新 建 ”按钮 ， 新 建 一 个 JAVA_HOME， 如 图 1-9 


所 示 。 
如 果 已 有 PATH 变量 ， 单 击 “ 编 辑 ” 按 钮 ,将 IDK 的 bin 路 径 添加 到 Path 中 ， 如 图 1-10 
所 示 。 


Ress =s fxs] 
ore 


admin HAARE U) 


变量 值 

SPLUNK_HOME C:\Program Files\splunk\bin 

TEMP SUSERPROFILES\AppData\Local\Temp |E 
THP SUSERPROFILES\AppD at a\Local \Temp 


(mew...) Ro...) who) 


系统 变量 G) 
82628 = x) = 

zg E 
OPENSSL CONF C:\OpenSSLibintopenssl. cfg 

T os Windows_NT 

TEAN): JAVA HOME| ath D:\Perl\site\bin:D: \Perl\bin:¢:... 
PATHRXT CNM- RXR- RAT- CMN- VRS- VRR 

变量 值 ): C:\Program Files\Java\jdkl. 8. 0_65 TS 

= =r 
ee | CTE Go 
图 1-9 fet JAVA_HOME 系统 变量 图 1-10 PATH 环境 变量 编辑 


配置 Pah 变量 的 时 候 ， 在 变量 值 文本 框 前 面 增加 % JAVA_HOME% \bin WME, DRA 
盖 蔡 换 其 他 应 用 程序 的 Path， 如 果 替 换 了 会 导致 其 他 的 应 用 程序 无 法 执行 。 

(4) JDK 测试 验证 

JDK 安装 和 配置 完成 以 后 ， 要 测试 验证 IDK 能 否 在 设备 上 运行 。 选 择 “ 开 始 ” 一 “运行 ” 
are, 在 “运行 ”窗口 中 输入 CMD 命令 ， 进入 DOS 环境 ， 在 命令 行 提示 符 中 直接 输入 java - 
version ， 按 Enter 键 ， 系 统 会 显示 JDK 的 版 本 ,说 明 IDK 已 经 安装 成 功 。 命 令 提示 如 下 : 


C: \Users \admin \Desktop > java — version 

Java version "1. 8.0_60" 

Java(TM) SE Runtime Environment (build 1. 8. 0_60 - b27 ) 

Java HotSpot(TM) Client VM (build 25.60 - b23, mixed mode, sharing) 


2. Windows 环境 下 的 Scala 安装 与 配置 

(1) 下 载 Scala 

登录 Scala 的 官网 http://www. scala - lang. org/download/all. html， 官 网 上 从 Sca- 
la2. 5. 0. final 到 Scala 2. 12. 0 - M2 列 出 了 很 多 Scala 的 安装 版 本 ， 对 于 Spark 来 说 ，Spark È 
网 要 求 Scala 的 版 本 必须 是 Scala 2. 10. x 系列 的 ， 为 了 之 后 Spark 的 顺利 安装 ， 这 里 选择 安装 
scala — 2.10.4 RAS (http://www. scala - lang. org/download/2. 10. 4. html) ， 在 网 页 上 单 击 
scala -2. 10. 4. msi 进行 下 载 ， 保 存 到 本 地 目录 ， 如 图 1-11 所 示 。 

(2) 安装 Scala 

在 本 地 目录 中 双击 scala -2. 10. 4. msi， 如 图 1-12 所 示 。 

按照 Scala 的 安装 提示 一 步 一 步 地 操作 ， 单 击 “Next” 按 钮 ， 安 装 完成 。 

(3) 配置 Path 环境 变量 

Windows 系统 中 ， 用 鼠标 右键 单 击 “我 的 电脑 ”选择 “属性 ”一 “系统 特性 ”一 “高 
级 ”命令 ， 弹 出 “系统 属性 ”对 话 框 ; 在 Window 7 操作 系统 中 ， 用 鼠标 右键 单 击 “ 我 的 电 
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脑 "， 选 择 “ 属 性 ”一 “高 级 系统 配置 ”一 “高 级 ”命令 ， 弹 出 “系统 属性 ”对 话 框 ， 单 
击 “ 环 境 变量 ”按钮 弹出 “环境 变量 ”对 话 框 ， seas 所 示 。 


日 www.scala-lang.org/download/2.10.4.html JE The Scala Programming Language Setup C= =H 
Archive System Size atom Setup ce 
Select the way you want features to be installed. 
scala-2.10.4.tgz Mac OS X, Unix, Cygwin 28.55M 
scala-2.10.4.msi Windows (msi installer) 60.00M Fo SS SI SESE OS es Aea 
scala-2.10.4.zip Windows 28.60M 日 | The windows installation of the 
为 "| The core scala language ‘Scala Programming Language 
scala-2.10.4.deb Debian 24.83M E~ | Update system PATH 
由 一 为 "| Documentation for the S 

scala-2.10.4.rpm RPM package 24.83M E~ | Sources Mr re 

hard drive. Ithas 0 of 4 
scala-docs-2.10.4.txz API docs 3.65M subfeatures selected, The 

subfeatures require OKB on your 
scala-docs-2.10.4.zip API docs 32.46M a ra z hard dri 
scala-sources-2.10.4.zip sources c:\Program Files\scala\ 
scala-tool-support-2.10.4.tgz Scala Tool Support (tgz) 25K 
scala-tool-support-2.10.4.zip Scala Tool Support (zip) 46K Reset I Bsns Jí Back next) Cancel 
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Scala 官网 下 载 


图 1-12 Scala 安装 


如 果 没 有 SCALA_HOME 系统 变量 ， 新 建 一 个 SCALA_HOME 系统 变量 ， 如 图 1-14 


所 示 。 


Rese 一 一 =a 
| amin HAARE U) 
gE ia E 
Path Sjava_home®ibin; E 
SPLUNK_HOME C:\Program Files\splunkibin LJ 
TEMP WUSERPROFILEN\AppData\Local \Temp 
TMP SIISERPROFTLESS Annlatailocal \Temn i 
| (FREON... | (HEE)... | |_ 量 除 吕 ) | 
| FREES) a — 
可 alll, SERATE E] 
zE a = 
os Windows_NT E 
| Path D: \Perlisite\bin;D: \Perl\bin;G: 33 
I| | PATHEXT COM; . EXE; . BAT; . CMD; . VBS; . VBE; 变量 名 N): SCALA_HOME| 
PROCESSOR AR YRR | 
| ERA v): G: \scala 
= = a 
L J 


Al 1-13 


如 果 已 有 Path 变量 ， 单 击 “ 编 辑 ” 按 钮 ， 将 
Scala 的 bin 路 径 添加 到 Path 中 ， 如 图 1-15 所 示 。 

(4) Scala 测试 验证 

Scala 安装 和 配置 完成 以 后 ， 再 来 测试 验证 
Scala 能 和 否 在 设备 上 运行 。 选 择 “ 开 始 ” 一 oe 
ÍT ME, 在 “运行 ”窗口 中 输入 CMD 命令 ， 进 
入 DOS 环境 ， 在 命令 P aan. 
按 Enter 键 ， 显 示 Scala 的 版 本 Scala version 2. 10. 4, 


“环境 变量 ”对 话 


Tl 


图 1-14 新 建 SCALA_HOME 系统 变量 


T 


变量 名 N): Path 


Rea): 


+: \Python27 ; SSCALA_HOMES\bin; Wjaval h 


Al 1-15 Path 配置 


命令 如 下 所 示 : 


C: \Users \admin \ Desktop > scala 
Welcome to Scala version 2. 10. 4 (Java HotSpot( TM) Client VM, Java 1. 8. 0_60). 
Type in expressions to have them evaluated. 


Type :help for more information. 
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在 Scala 交互 式 命令 行 中 ,输入 一 个 计算 表达 式 ， 计算 出 1+1 及 10 *10 的 结果 ， 如 下 
所 示 。 至 此 ，Windows 环境 下 Scala 的 安装 已 经 完成 。 


scala >1 +1 
resO ; Int = 2 
scala > 10 * 10 
resl ; Int = 100 


scala > 


Linux 环境 下 的 Scala 安装 


1. Linux 版 本 JDK 的 安装 与 配置 

(1) FÆ JDK 

登录 Oracle 的 官方 网 站 (http://www. oracle. com/technetwork/java/javase/downloads/ jdk8 
— downloads — 2133151. html) 下 载 Linux 版 本 的 Java SE Development Kit 8u65。 选 择 Accept 
License Agreement 单 选 按钮 ， 选 择 JDK 8 的 使 用 条 款 ， 根 据 设 备 的 操作 系统 选择 不 同 的 下 载 
安装 包 ， 这 里 安装 的 是 虚拟 机 Linux x86 32 位 系统 的 JDK 版 本 jdk - 8u65 - linux - 
i586. tar. gz; 虚拟 机 Linux 64 位 的 系统 可 以 下 载 安 装 jdk — 8u65 — linux - x64. tar. gz, 

(2) 将 文件 传送 至 虚拟 机 

下 载 jdk -8u65 -linux - i586. tar. gz 安装 包 到 Windows 本 地 目录 ， 然 后 使 用 WinSCP X 
件 传输 工具 将 jdk - 8u65 — linux — i586. tar. gz 从 本 地 Windows 传送 到 远程 虚拟 机 系统 ; 打开 
WinSCP TEH, 将 文件 传送 到 /usr/local/setup_tools 目录 。 

使 用 PieTTY 远程 连接 工具 ， 登 录 到 Linux 远程 虚拟 机 。 

输入 cd /usr/local/setup_tools 命令 ， 进 入 setup_tools 目录 。 

输入 ls 命令 ， 可 以 看 到 jdk -8u65 -linux -i586. gz 文件 已 经 传 到 了 远程 虚拟 机 上 。 


[ root@ master sbin |#cd /usr/local/setup_tools 


[ root@ master setup_tools | #ls 


hadoop - 1. 2. 1 jdk1. 7. 0_79 scala —2. 10. 4. tgz 
spark — 1. 6.0 — bin — hadoop2. 6. tgz hadoop — 1.2. 1 — bin. tar. gz jdk — 865 — linux — i586. gz 
spark — 1.0.0 -bin - hadoopl hadoop —2. 6. 0. tar. gz scala — 2. 10. 4 


spark — 1. 0. 0 — bin — hadoop!1. tgz 


[ root@ master setup_tools ] # 


(3) JDK 解压 安装 

输入 Linux 解压 缩 命令 # tar — zxvf jdk -8u65 — linux — i586. tar. gz， 将 jdk -8u65 — linux — 
i586. tar. gz 解压 到 目录 jdk1. 8.0_65 Fo (Linux 解压 缩 命令 tar 通常 使 用 - zxvf 参数 ， 含 义 分 
别 为 -x: 解压 ，-z: 有 gzip 属性 ; -v: 显示 所 有 过 程 ; -f: 使 用 档案 名 字 。) 


[ root@ master setup_tools |#tar - zxvf jdk -8u65 — linux — i586. gz 


第 1 章 Scala 零 基础 入 门 


解压 到 jdk1. 8. 0_65 目录 以 后 ， 使 用 ls 命令 查看 当前 目录 下 jdkl. 8. 0_65 是 否 已 经 解压 
完成 ， 使 用 命令 # mv jdk1. 8. 0 .65 /usr/local 将 jdk1. 8. 0 65 目录 从 当前 日 录 /usr/local/setup_ 
tools 复制 到 /usr/local 目录 中 。 


[ root@ master setup_tools ]#mv jdk1. 8. 0_65 /usr/local 


(4) 配置 Linux JDK 的 全 局 环境 变量 
输入 命令 # vi /ete/ profile 打开 profile 文件 。 


[ root@ master ~ |#vi /etc/profile 


在 vi 运行 时 ， 通常 处 在 命令 模式 下 ,输入 I(i) 可 以 使 vi 从 退出 命令 模式 进入 文本 输入 
模式 ,在 vi 文本 输入 模式 中 ， 在 profile 文件 的 最 后 增加 JAVA_HOME 及 修改 PATH 的 环境 
变量 ， 然 后 在 vi 中 按 Esc 键 , 输入 :wq!， 保存 并 退出 。 


export JAVA_HOME = /usr/local/jdk1. 8. 0_65 
export PATH =. : $ PATH: $ JAVA_HOME/bin 


(5) 环境 变量 配置 生效 
在 命令 行 中 输入 source /etc/profile， 使 刚才 修改 的 JAVA_ HOME 及 PATH 配置 文件 


[ root@ master ~ |#source /etc/profile 


(6) JDK 安装 验证 
在 命令 行 输入 # java -version， 显 示 Java 的 版 本 号 java version "1. 8. 0 .65" 。 至 此 ，Linux 
环境 下 IDK 的 安装 已 经 完成 了 。 


[ root@ master setup_tools |#java — version 

java version "1. 8. 0_65" 

Java(TM) SE Runtime Environment (build 1. 8. 0_65 - b17) 
Java HotSpot(TM) Client VM (build 25.65 —b01, mixed mode) 


[ root@ master setup_tools ] # 


2. Linux 环境 下 的 Scala 安装 与 配置 

(1) 下 载 Scala 

登录 Scala 的 官网 http://www. scala - lang. org/download/all. html ,Spark 官网 要 求 Scala 的 
版 本 必须 是 Scala 2. 10.x 系列 的 ， 这 里 选择 安装 scala - 2.10.4 版 本 (http://www. scala — 
lang. org/download/2. 10. 4. html) , 在 网 页 上 单 击 scala - 2. 10. 4. tgz 进行 下 载 ， 保存 到 Win- 
dows 本 地 目录 。 

(2) 将 文件 传送 至 虚拟 机 

下 载 scala -2. 10. 4. tgz 安装 包 到 Windows 本 地 目录 ,使 用 WinSCP 文件 传输 工具 将 scala 
-2. 10. 4. tgz 从 本 地 Windows 传送 到 远程 虚拟 机 系统 ; 打开 WinSCP 工具 ,连接 Linux 虚拟 
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机 ， 复 制 到 /usr/local/setup_tools 目录 。 
使 用 PieTTY 远程 连接 工具 ， 登 录 到 Linux 远程 虚拟 机 ， 输 入 cd /usr/local/setup_tools 命令 
进入 setup_tools 目录 ， 输 入 ls 命令 ，scala -2. 10. 4. tgz 文件 已 经 传 到 了 远程 虚拟 机 上 。 


[ root@ master sbin |#cd /usr/local/setup_tools 


[ root@ master setup_tools | #ls 


hadoop — 1. 2. 1 jdk1. 7. 0_79 scala -2. 10. 4. tgz 
spark — 1. 6. 0 — bin — hadoop2. 6. tgz hadoop — 1.2. 1 — bin. tar. gz jdk—8u65 — linux — i586. gz 
spark — 1.0.0 — bin —hadoop1 hadoop —2. 6. 0. tar. gz scala — 2. 10. 4 


spark — 1. 0. 0 — bin — hadoop!1. tgz 


(3) 解压 并 安装 Scala 
输入 Linux 解压 缩 命 令 # tar — zxvf scala -2. 10. 4. tez, 将 scala - 2. 10. 4. tgz 解压 到 目录 
scala -2. 10. 4, 


[ root@ master setup_tools ]# tar -— zxvf scala —2. 10. 4. tgz 


解压 到 scala -2. 10.4 目录 以 后 ， 使 用 ls 命令 查看 当前 目录 下 scala - 2. 10. 4 是 否 已 经 解 
压 完 成 ， 使 用 命令 # mv scala -2. 10.4 /usr/local 将 scala -2. 10. 4 目录 从 当前 目录 /usr/lo- 
cal/setup_tools 复制 到 /usr/local 目录 中 。 


[ root@ master local |#mv scala -2. 10.4 /usr/local 


(4) 配置 Linux scala -2. 10.4 的 全 局 环境 变量 

输入 名 称 # vi /ete/profile 打开 profile 文件 ,输入 1 (i) 可 以 进入 文本 输入 模式 ， 在 pro- 
file 文件 的 最 后 增加 SCALA_HOME 及 修改 PATH 的 环境 变量 ， 然 后 在 vi 中 按 Esc 键 ， 输 入 : 
wq!， 保 存 并 退出 。 


export SCALA_HOME = /usr/local/scala -2. 10. 4 
export PATH =. : $ PATH: $ JAVA_HOME/bin: $ HADOOP_HOME/bin; $ SCALA_HOME/bin 


在 shell 提示 符 下 运行 Scala 程序 ， 若 没有 指定 完整 的 路 径 ， 系 统 自 动 到 当前 目录 下 查询 
相应 的 文件 ， 如 果 没 有 找到 ， 会 到 系统 的 环境 变量 PATH 中 去 查找 Scala 程序 。 配 置 了 
PATH 变量 之 后 ， 就 可 以 在 任意 目录 下 执行 Scala, BMW] Scala 的 安装 目录 bin 下 执行 。 

(5) 环境 变量 配置 生效 

在 命令 行 中 输入 source /etc/profile， 使 刚才 修改 的 SCALA_HOME 及 PATH 配置 文件 


[ root@ master ~ |#source /etc/profile 


(6) Scala 测试 验证 
在 命令 行 输入 #scala， 显 示 版 本 为 Scala version 2. 10. 4, 
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[ root@ master local ]#scala 
Welcome to Scala version 2. 10.4 (Java HotSpot(TM) Client VM, Java 1. 8.0_65). 


Type in expressions to have them evaluated. 


Type :help for more information. © 


scala > 


在 Scala 交互 式 命 令 行 ， 输 入 一 个 计算 表达 式 Scala 准确 地 计算 出 了 1 +1 及 10*10 的 
1 


“Ee 
结果 。 


scala >1+1 


res0:Int=2 


scala > 10 * 10 
res] ; Int = 100 


scala > 


至 此 ，Linux 环境 下 Scala 的 安装 就 已 经 完成 了 。 


Linux 环境 下 的 Hadoop 安装 与 配置 


1. 准备 工作 
(1) 关闭 防火 墙 
在 Linux 环境 下 Hadoop KJR MEP, W geo wc AL T 
减少 网 络 访问 中 出 现 的 错误 ， 在 测试 环境 中 尽 。 rm ee sa mn 
可 能 关闭 对 网 络 的 限制 ， 使 Hadoop 的 安装 能 
顺利 进行 。 在 生产 环境 中 ， 要 规划 防火 墙 的 配 
置 ， 保 障 业务 的 运行 。 
登录 VMware Workstation 的 Linux 虚拟 机 ， 
输入 用 户 名 、 密 码 进入 Linux 系统 ,在 Linux 的 “ 国 nse 
Applications 菜单 的 System Tools 中 选择 Terminal 全 = HNED 
工具 ， 如 图 1-16 所 示 ， 打 开 Terminal 终端 。 国 system Monitor 
在 Terminal 终端 中 输入 setup 命令 ， 输 入 a 
系统 管理 员 的 密码 ， 如 图 1-17 所 示 。 
打开 Linux 的 内 置 管 理 工具 ， 可 以 管理 防 
火 墙 、IP 地 址 、 各 类 服务 等 信息 的 设置 。 图 1-16 Terminal 工具 
如 图 1-18 所 示 。 
选择 Firewall configuration , 然后 按 Enter 键 如 图 1-19 所 示 。 
如 果 中 间 的 方 括号 中 有 “* ”， 表 示 被 选中 ,说 明 防 火 墙 是 被 启用 的 。 关 闭 防火 墙 ， 只 
需要 按 一 下 空格 键 ， 符 号“ * ”就 会 消失 。 然 后 使 用 Tab 键 选中 OK 按钮 ， 按 Enter 键 确定 


起 始 页 号 Centos 
eS | Places System (>) e 区 


hee Accessories 


F Graphics 


@ Intemet 


H) Sound & video 


> 
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Terminal 


File Edit View Search Terminal Help 
[hadoop@sparko ~]$setupff 


图 1-17 setup 命令 


ens Vireo >” EE” cs a E 
ZAA SO DEY HOM) BEM WH) 8 J 
X 0 Gi Oa A/D 


起 由 页 i Centos 
% Applications Places System & zz a Mon Oct 5, 19:30 


Terminal 
File Edit View Search Terminal Help 


c} 1999-26 


Choose a Tool 


Authenticatio figurat 
Firewall configuration 
Keyboard configuration 
Network configuration 
System services 


<Tab>/<ALt-Tab> between elements | Use <Enter> to edit a selection 


N 


1-18 Linux 的 内 置 管理 工具 


File Edit View Search Terminal Help 
system-config- firewall 


Firewall Configuration 


A firewall protects against unauthorized 

network intrusions. Enabling a firewall blocks 
all incoming connections. Disabling a firewall 
allows all connections and is not recommended. 


Firewall: [EGER 


<Tab>/<Alt-Tab> between elements | <Space> selects | <F12> next screen 


图 1-19 Firewall 配置 


退出 。 
关闭 Linux 的 防火 墙 以 后 ， 要 验证 一 下 : 在 shell 提示 符 下 输入 service iptables status, 
提示 iptables: Firewall is not running. 说 明 防 火 墙 已 经 关闭 。 


ny 
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[ root@ master hadoop |#cd ~ 
[ root@ master ~ |#serviceiptables status 


iptables ; Firewall is not running. 


[root@ master ~ |# > 


(2) 配置 DNS 地 址 解析 

在 Hadoop 中 ， 主 机 之 间 通 过 域名 进行 访问 ， 需 配置 DNS (Domain Name System) 域名 
系统 hosts 的 域名 解析 。 

1) 使 用 PieTTY 远程 连接 工具 ， 登 录 到 Linux 远程 虚拟 机 。 

2) 输入 #vi/etc/hosts， 打 开 hosts 文件 。 

3) Vi 打开 时 ,输入 LI (i) 使 vi 进入 文本 输入 模式 , 在 vi 文本 输入 模式 中 ， 在 文件 的 
最 后 增加 192. 168. 2. 100 Master， 然 后 在 vi PIX Esc 键 , WA :wqa!, 保存 并 退出 。 

4) 输入 # cat /etc/hosts， 查 看 已 经 修改 的 hosts 文件 。 


[ root@ master local |# cat /etc/hosts 

127.0.0.1 localhost localhost. localdomain localhost4 localhost4. localdomain4 
zl localhost localhost. localdomain localhost6 localhost6. localdomain6 
192. 168. 2. 100 Master 


[ root@ master local | # 


(3) 配置 SSH 免 密 码 登录 

Hadoop 的 进程 之 间 通 信使 用 SSH 方式 ，SSH 方式 每 次 都 需要 输入 密码 。 为 了 减少 Ha- 
doop 安装 时 的 密码 输入 操作 ， 这 里 先 配 置 SSH 实现 免 密码 登录 。 

1) 输入 # ssh — keygen -t ra 命令 生成 密 钥 ， 命 令 中 的 rsa 表示 使 用 RSA 加 密 方式 生成 
密 钥 ， 如 果 之 前 已 经 配置 过 ssh rsa, WA y 并 确认 覆盖 原文 件 即 可 ; 如 果 之 前 没有 配置 过 
ssh rsa， 则 根据 提示 一 直 按 Enter 键 确认 即 可 。 


[ root@ master local ]# ssh — keygen -t rsa 
Generating public/private rsa key pair. 
Enter file in which to save the key (/root/. ssh/id_rsa) : 
/root/. ssh/id_rsa already exists. 

Overwrite (y/n)? y 

Enterpassphrase ( empty for no passphrase ) : 

Enter samepassphrase again : 

Your identification has been saved in /root/. ssh/id_rsa. 
Your public key has been saved in /root/. ssh/id_rsa. pub. 
The key fingerprint is; 

dO: b3 :4c :e9 ; a5 : a4 42 :26:b5 :26:2a:c0:fc:48:47:ad root@ master 
The keySrandomart image is; 

t=- RA IVB] === 


-0 


ere | 
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+ 


[ root@ master local |# 


2) 


输入 # cd /root/. ssh 命令 ， 使 用 # ls -1 查看 生成 的 密 钥 文件 。 


[ root@ master local |#cd /root/. ssh 
[ root@ master . ssh |#ls —1 


total 16 

-rw-r--r--. l root root 393 Jan 5 05:57 authorized_keys 
-rw 一 一 一 一 一 一 一 . 1 root root 1675 Jan 24 01 :45 id_rsa 
-rw-r--r--. l root root 393 Jan 24 01:45 id_rsa. pub 
-rw-r--r-- 


. l root root 1570 Jan 23 07:27 known_hosts 
[ root@ master . ssh |# 


3) 输入 # cp id_rsa. pub authorized_keys 命令 生成 认证 文件 ， 如 果 之 前 已 经 配置 过 ssh 
sa, : 


已 经 有 了 authorized_keys XF, HA y 并 确认 和 覆盖 原文 件 ; 如 果 之 前 没有 生成 author- 
ized_keys 文件 ， 直 接 复制 即 可 。 


[ root@ master . ssh |#cp id_rsa. pub authorized_keys 
cp:overwrité authorized_key$ ? y 


[ root@ master . ssh |# 


4) 测试 验证 一 下 ， 输 入 # ssh Master， 可 以 直接 登录 Linux 系统 ， 说 明 ssh 免 密码 登录 已 
经 配置 完成 。 


[ root@ master ~ ]#ssh Master 


Last login; Sun Jan 24 01 :49 :15 2016 from master 
[ root@ master ~ |# 


2. Hadoop 安装 


在 Linux 中 完成 了 防火 墙 的 关闭 、DNS 域名 的 解析 、SSH 的 免 密码 登录 的 准备 工作 ， 接 
下 来 就 开始 Hadoop 的 安装 。 


Hadoop 有 3 种 安装 方式 ,分 别 是 本 地 模式 、 伪 分 布 模式 、 集 群 模式 。 本 地 模式 是 Ha- 
doop 在 本 地 计算 机 上 运行 ; 伪 分 布 模式 是 Hadoop 在 一 台 计 算 机 上 模拟 分 布 式 部 署 ， 学 习 和 
测试 Hadoop 很 方便 ; 集群 模式 是 在 多 台 计 算 机 上 配置 Hadoop。 因 为 在 VMware Workstation 
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虚拟 机 上 只 有 一 台 Linux 虚拟 机 ， 所 以 这 里 使 用 伪 分 布 方式 安装 Hadoop 。 

(1) Hadoop 的 下 载 

进入 Hadoop 的 镜像 下 载 页 面 ， 下 载 hadoop -2. 6.0.tar gz 版 本 (http://mirrors. cnnic. 
cn/apache/hadoop/common/hadoop - 2. 6. 0/) ， 在 网 页 上 单 击 hadoop - 2. 6. 0. tar. gz 进行 下 > 
载 ， 如 图 1-20 所 示 ， 将 其 保存 到 Windows 本 地 目录 。 


e C | D mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.6.0/ 
Apache Software Foundation Distribution Directory 


The directories linked below contain current software releases from the Apache Software Foundation proj 
site. 


To find the right download for a particular project, you should start at the project's own webpage or c 
below. 


Please do not download from apache. org! If you are currently at apache. org and would like to browse, 1 


Projects 

/apache/hadoop/common/hadoop-2. 6. 0/ 

File Name File Size Date 
17523255 01-Dec-2014 07:52 
1116 01-Dec-2014 07:52 


195257604 01-Dec-2014 07:52 
958 01-Dec-2014 07:52 


LR 


1-20 Hadoop 下 载 页 面 


(2) 将 文件 传送 至 虚拟 机 

下 载 hadoop — 2. 6. 0. tar. gz 安装 包 到 Windows 本 地 目录 ， 使 用 WinSCP 文件 传输 工具 将 
hadoop — 2. 6.0. tar. gz 从 本 地 Windows 传送 到 远程 虚拟 机 系统 ， 打开 WinSCP TH, Mt% 
Linux 虚拟 机 ， 复 制 到 /usr/local/setup_tools 目录 。 

使 用 PieTTY 远程 连接 工具 ， 登 录 到 Linux 远程 虚拟 机 ， 输 入 cd /usr/local/setup_tools 命 
令 进 入 setup_tools H, fi A ls 命令， 查看 hadoop - 2. 6. 0. tar. gz 文件 是 否 已 经 传 到 了 远程 
虚拟 机 上 。 


[ root@ master ~ |#cd /usr/local/setup_tools 

[ root@ master setup_tools | #ls 

hadoop — 2. 6. 0 hadoop —2. 6. 0. tar. gz jdk —8u65 — linux — i586. gz scala —2. 10. 4. tgz 

spark — 1. 6. 0 — bin — hadoop2. 6. tgz hadoop — 2. 6. 0 — bin. tar. gz jdk1.7.0_79 scala -2. 10. 4 
spark — 1. 6.0 — bin — hadoop2.6 spark - 1. 6. O — bin — hadoop2. 6. tgz 


(3) 解压 安装 
输入 # tar -zxvf hadoop -2. 6. 0. tar. gz 命令 ， 对 hadoop -2. 6. 0. tar. gz 进行 解压 缩 。 


[ root@ master setup_tools |#tar 一 zxvf hadoop —2. 6. 0. tar. gz 


将 hadoop —2. 6. 0. tar. gz 解压 到 hadoop -2. 6.0 目录 以 后 ， 使 用 ls 命令 查看 当前 目录 下 
hadoop -2. 6. 0. tar. gz 是 否 已 经 解压 完成 ， 使 用 # mv hadoop -2.6.0 /usr/local 命令 将 ha- 
doop -2. 6. 0 目录 从 当前 目录 /usr/local/setup_tools 复制 到 /usr/local 目录 中 。 


[ root@ master setup_tools |#mv hadoop — 2. 6. 0 /usr/local 
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(4) 配置 Hadoop 的 全 局 环境 变量 

输入 名 称 # vi /etc/profile， 打 开 profile XF, 输入 I (i) 可 以 进入 文本 输入 模式 ， 在 
profile 文件 的 最 后 增加 HADOOP_HOME 及 修改 PATH 的 环境 变量 ， 然 后 在 vi 中 按 Esc 键 ， 
输入 :wdq!， 保 存 并 退出 。 


export HADOOP_HOME = /usr/local/hadoop -2.6.0 
export PATH =. : $ PATH: $ JAVA_HOME/bin: $ HADOOP_HOME/bin: $ SCALA_HOME/bin 


(5) 环境 变量 配置 生效 
在 命令 行 中 输入 source /etc/profile， 使 刚才 修改 的 HADOOP_HOME 及 PATH 配置 文件 


[ root@ master setup_tools |#ed ~ 


[ root@ master ~ |#source /etc/profile 


(6) hadoop — env. sh 配置 文件 修改 

在 命令 行 输入 # cd /usr/local/hadoop — 2. 6. 0/etc/hadoop, tA Hadoop 的 配置 文件 日 录 ， 
输入 名 称 # vi hadoop -env. sh， 打 开 hadoop -env. sh 文件 ， 输 入 I(i) 可 以 进入 文本 输入 模式 ， 
在 hadoop -env. sh 文件 中 ， 增 加 JAVA_HOME 环境 变量 配置 ， 然 后 在 vi 中 按 Esc 键 ， 输 入 : 
wq!， 保 存 并 退出 。 


[ root@ master hadoop | #vihadoop — env. sh 
export JAVA_HOME = /usr/local/jdk1. 8. 0_65 


(7) core - site. xml 核心 配置 文件 修改 

在 命令 行 输入 # cd /usr/local/hadoop - 2. 6. 0/etc/hadoop ， 进 入 Hadoop 的 配置 文件 日 录 ， 
输入 名 称 # vi core - site. xml， 打 开 core - site. xml 文件 ,输入 I (i) 可 以 进入 文本 输入 模式 ， 
在 core - site. xml 文件 中 ， 配 置 相关 参数 ， 然 后 在 vi 中 按 Esc 键 ， 输 入 :wq!1， 保 存 并 退出 。 


< configuration > 
< property > 
< name > hadoop. tmp. dir < /name > 
< value > /usr/local/hadoop — 2. 6. 0/tmp < /value > 
< description > hadoop. tmp. dir < /description > 
</property > 
< property > 
< name > fs. defaultFS < /name > 
<value > hdfs://Master:9000 < /value > 
</property > 
< property > 
< name > hadoop. native. lib </name > 
< value > false < /value > 


< description > no use native hadoop libraries </description > 
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< configuration > 
</property > 


</configuration > 


(8) hdfs - site. xml 配置 文件 修改 > 
在 命令 行 输入 # cd /usr/local/hadoop - 2. 6. 0/etc/hadoop, iA Hadoop 的 配置 文件 日 录 ， 
输入 # vi hdfs - site. xml， 打 开 hdfs - site. xml 文件 ， 即 Hadoop 分 布 式 文件 系统 (Hadoop Dis- 
tributed File System，HDFS) ， 输 入 I (i) 可 以 进入 文本 输入 模式 ， 在 hdfs - site. xml 文件 中 ， 
配置 相关 参数 ， 然 后 在 vi 中 按 Ese 键 ， 输 入 :wq!， 保 存 并 退出 。HDFS 存储 备份 一 般 3 个 存 
储 节点 做 一 个 集群 ， 存 储备 份 设 置 为 3， 这 里 测试 使 用 1 台 虚 拟 机 ， 因 此 设置 dfs. replication 
的 值 为 1。 


< configuration > 
< property > 
< name > dfs. replication < /name > 
<value >1 </value > 
</property > 
< property > 
< name > dfs. namenode. name. dir < /name > 
<value > /usr/local/hadoop — 2. 6. 0/tmp/dfs/name < /value > 
</property > 
< property > 
< name > dfs. datanode. data. dir < /name > 
< value > /usr/local/hadoop — 2. 6. 0/tmp/dfs/data < /value > 
</property > 


</configuration > 


(9) 格式 化 HDFS 文件 系统 

Hadoop 的 文件 系统 是 HDFS， 第 一 次 使 用 之 前 需 进 行文 件 系统 格式 化 。 使 用 # cd /usr/ 
local/hadoop -2. 6. 0/bin 命令 进入 Hadoop AY bin 目录 ， 然 后 输入 # hdfs namenode — format fit 

进行 文件 系统 格式 化 。 


[ root@ master bin |#hdfs namenode — format 

16/01/23 07:24:17 INFOnamenode. NameNode:STARTUP_MSG; 

JO RGGI GIGI oo ooo IOR k k ICR I AO k k 
STARTUP_MSG: StartingNameNode 

STARTUP_MSG; host = Master/192. 168. 2. 100 

STARTUP_MSG; args = | — format | 

STARTUP_MSG: version =2. 6.0 


16/01/23 07: 24: 20 INFOnamenode. FSImage: Allocated new BlockPoolld; BP - 1576750063 - 
192. 168. 2. 100 — 1453562660199 
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16/01/23 07:24:20 INFO common. Storage: Storage directory /usr/local/hadoop - 2. 6. 0/tmp/dfs/ 


name has been successfully formatted. 

16/01/23 07:24:20 INFOnamenode. NNStorageRetentionManager: Going to retain 1 images with txid 
>=0 

16/01/23 07:24:20 INFO util. ExitUtil; Exiting with status 0 

16/01/23 07:24:20 INFOnamenode. NameNode: SHUTDOWN_MSG: 

J OG II ICICI CCCI ooo CI CIICICICICICIGICI o o o o ak ak ak ak 
SHUTDOWN_MSG: Shutting downNameNode at Master/192. 168. 2. 100 


3K K K k oe K K k 3K K k K 3K >K K 3K >K eK K aK aK 3K 3K 3K K 3K aK K k K 3K K 3K aK aK ak 3K 3K ok GK k >K ak K aK aK k K 9K k GK ak os >K ok K ok oh/ 


[ root@ master bin |# 


(10) 启动 Hadoop 系统 
输入 # start - all. sh 命令 ， 启 动 Hadoop 的 所 有 相关 进程 。 


[ root@ master bin |#start — all. sh 
This script is Deprecated. Instead use start — dfs. sh and start — yarn. sh 
16/01/23 07:32:23 WARN util. NativeCodeLoader ; Unable to load native — hadoop library for your 
platform... using builtin — java classes where applicable 
Startingnamenodes on [ Master | 
Master: startingnamenode , logging to /usr/local/hadoop — 2. 6. 0/logs/hadoop — root — namenode — mas- 
ter. out 
localhost: startingdatanode, logging to /usr/local/hadoop — 2. 6. 0/logs/hadoop — root — datanode — mas- 
ter. out 
Starting secondarynamenodes | 0. 0. 0. 0 | 
0. 0. 0. 0: startingsecondarynamenode, logging to /usr/local/hadoop — 2. 6. 0/logs/hadoop — root — sec- 
ondarynamenode — master. out 
16/01/23 07:32:43 WARN util. NativeCodeLoader ; Unable to load native — hadoop library for your 
platform. . using builtin — java classes where applicable 
starting yarn daemons 
startingresourcemanager, logging to /usr/local/hadoop — 2. 6. 0/logs/yarn — hadoop — resourcemanager 
— master. out 
localhost ; startingnodemanager, logging to /usr/local/hadoop — 2. 6. 0/logs/yarn — root — nodemanager — 


master. out 


输入 # jps 命令 ， 查 看 Hadoop 相关 的 5 个 进程 是 否 全 部 启动 起 来 ,若是 则 说 明 Hadoop 
启动 成 功 。 


[ root@ master bin |#jps 
4515 ResourceManager 
4809 Jps 

4234 DataNode 

4602 NodeManager 

4122 NameNode 

4379 SecondaryNameNode 


(11) 以 Web 方式 查看 Hadoop 系统 
启动 Hadoop 后 ， 在 Windows 本 地 计算 机 上 (192.168.2.1) 上 打开 Web 浏览 器 ， 在 浏 
览 器 中 输入 Hadoop 的 URL: http://192. 168. 2. 100 : 50070 就 可 以 查看 Hadoop 系统 的 相关 


至 此 ，Hadoop 伪 分 布 式 安装 全 部 完成 ， 如 图 1-21 所 示 。 


€ > C D 192.168.2.100:50070/dfshealth.html#tab-overview 


Hadoop Overview Datanodes Snapshot Startup Progress Utilities 


Overview ‘vaster:9000' (active) 


Started: Sat Jan 23 07:32:26 PST 2016 
Version: 2.6.0, re3496499ecb8d220fba99dc5ed4c99c8f9e33bb1 
Compiled: 2014-11-13T21:10Z by jenkins from (detached from e349649) 
Cluster ID: CID-al55d6eb-elee-44af-ba72-ed89cc056b70 
Block Pool ID: BP-1576750063-192. 168. 2. 100-1453562660199 

KI 1-21 以 Web 方式 查看 Hadoop 


(12) 关闭 Hadoop 系统 
使 用 # stop - all. sh 命令 关闭 Hadoop 所 有 相关 进程 。 


[ root@ master hadoop | #stop — all. sh 

This script is Deprecated. Instead use stop - dfs. sh and stop — yarn. sh 
16/01/23 07:56:54 WARN util. NativeCodeLoader ; Unable to load native — hadoop library for your 
platform. . using builtin — java classes where applicable 

Stoppingnamenodes on [ Master | 

Master ; stoppingnamenode 

localhost ; stoppingdatanode 

Stopping secondarynamenodes [ 0. 0. 0. 0 ] 

0. 0. 0. 0; stoppingsecondarynamenode 
16/01/23 07:57:15 WARN util. NativeCodeLoader ; Unable to load native — hadoop library for your 
platform. . using builtin — java classes where applicable 

stopping yarn daemons 

stoppingresourcemanager 

localhost ; stoppingnodemanager 

noproxyserver to stop 


[ root@ master hadoop | # 


3. Hadoop MapReduce 词 频 统计 实例 

在 Hadoop 系统 中 ， 使 用 Hadoop 系统 自 带 的 MapReduce 工具 ， 对 上 传 到 Hadoop HDFS 
系统 的 文本 文件 进行 词 频 统计 ， 即 统计 每 个 单词 出 现 了 多 少 次 。 

(1) 从 Linux 上 传 文件 到 HDFS 文件 系统 

输入 # cd /ust/local/hadoop - 2.6.0 命令 ,进入 Hadoop 目录 ， 查 看 目录 下 是 否 有 一 个 
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README. txt 文本 文件 ， 将 README, txt 文件 作为 词 频 统计 的 样本 。 


[root@ master ~ |# cd /usr/local/hadoop -2. 6. 0 
[ root@ master hadoop —2. 6. 0 |# Is 
bin etc file: include liblibexec LICENSE. txt logs NOTICE. txt README. txt sbin 


share tmp 
[ root@ master hadoop —2. 6. 0] # 


输入 # hadoop fs - put README. txt/ 命 令 ， 将 虚拟 机 Linux 上 的 README. txt 文件 通过 


hadoop fs - put 命令 传送 到 Hadoop HDFS 文件 系统 的 根 目录 下 ， 然 后 使 用 hadoop fs - ls/ 命 


令 查 看 是 否 上 传 成 功 。 


[ root@ master hadoop -2. 6. 0]#hadoop fs -put README. txt / 
16/01/24 02:03:19 WARN util. NativeCodeLoader ; Unable to load native — hadoop library for your 
platform... using builtin — java classes where applicable 

[ root@ master hadoop — 2. 6. 0 |#hadoop fs -ls / 
16/01/24 02:03:38 WARN util. NativeCodeLoader ; Unable to load native — hadoop library for your 
platform... using builtin — java classes where applicable 


Found 2 items 
-rw-r--r-—-— l root supergroup 1366 2016 -01 -24 02:03 /README. txt 


drwx -wx -wx  — root supergroup 0 2016 -01 -23 17:04 /tmp 
[ root@ master hadoop — 2. 6. 0 ] # 


(2) i844 MapReduce 词 频 统计 
输入 # cd /usr/local/hadoop -2. 6. 0/share/hadoop/mapreduce 命令 ， 进 入 Hadoop 目录 。 
输入 # hadoop jar hadoop - mapreduce - examples — 2. 6. 0. jar wordcount/ README. txt/word- 
countoutput 命 令 o 
[ root@ master mapreduce |# cd /usr/local/hadoop — 2. 6. 0/share/hadoop/mapreduce 


[ root@ master mapreduce | #hadoop jar hadoop — mapreduce - examples — 2. 6. 0. jar wordcount /RE- 


ADME. txt /wordcountoutput 


运行 Hadoop 词 频 统计 分 析 ， 结 果 如 下 : 


[ root@ master mapreduce | #hadoop jar hadoop - mapreduce - examples — 2. 6. 0. jar wordcount /RE- 


ADME. txt /wordcountoutput 
16/01/24 02:15:06 INFO input. FileInputFormat;Total input paths to process :1 
16/01/24 02:15 :06 INFOmapreduce. JobSubmitter: number of splits ; 1 
16/01/24 02:15:06 INFOmapreduce. JobSubmitter; Submitting tokens for job; job_local966944383 


_0001 
16/01/24 02:15:12 INFOmapreduce. Job: map 100% reduce 100% 
16/01/24 02:15:12 INFOmapreduce. Job: Job job_local966944383_0001 completed successfully 
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16/01/24 02:15:12 INFOmapreduce. Job; Counters :38 


(3) 查看 MapReduce 统计 输出 的 文件 S 
输入 # hadoop fs - ls /wordcountoutput 命令 ， 查 看 输出 文件 。 


root@ master mapreduce |#hadoop fs — ls /wordcountoutput 

[ p p p 
16/01/24 02:19:07 WARN util. NativeCodeLoader: Unable to load native — hadoop library for your 
platform. .. using builtin — java classes where applicable 


Found 2 items 


—rw-r--r-- l root supergroup 0 2016 -01 -24 02:15 /wordcountoutput/_SUCCESS 
-rw-r--r-- 1 root supergroup 1306 2016 -01 - 24 02:15 /wordcountoutput/part — r 
— 00000 


[ root@ master mapreduce | # 


(4) 查看 MapReduce 词 频 统计 结果 
输入 # hadoop fs - cat /wordcountoutput/part — r — 00000 命令 ， 至 此 ， Hadoop 的 第 一 个 
运行 程序 已 经 完成 。 


[ root@ master mapreduce |#hadoop fs — cat /wordcountoutput/part — r — 00000 
16/01/24 02:19:52 WARN util. NativeCodeLoader ; Unable to load native — hadoop library for your 
platform... using builtin — java classes where applicable 
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Linux 环境 下 的 Spark 安装 与 配置 


在 Hadoop 的 基础 上 上， 进行 Spark 系统 的 安装 ， 具 体 步 又 如 下 : 

(1) Spark AY Fak 

进入 Spark 的 下 载 页 面 ， 下 载 spark - 1.6.0 - bin - hadoop2. 6. tgz 版 本 ( http:// 
www. apache. org/dyn/closer. lua/spark/spark - 1. 6. 0/spark - 1. 6. 0 - bin - hadoop2. 6.tgz)， 保 
存 到 Windows 本 地 目录 。 

(2) 将 文件 传送 至 虚拟 机 
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使 用 WinSCP 文件 传输 工具 将 spark -1. 6. 0 -bin -hadoop2. 6. tgz 从 本 地 Windows 系统 传 
送 到 虚拟 机 系统 上 ; 打开 WinSCP 工具 ， 连 接 Linux 虚拟 机 ， 将 该 文件 复制 到 /usr/1local/set- 
up_tools 目录 下 。 

使 用 PieTTY 远程 连接 工具 ， 登 录 到 Linux 远程 虚拟 机 ， 输 入 cd /usr/local/setup_tools 命 
令 进 入 setup_tools 目录 ,输入 ls 命令 ， 查看 spark -1. 6.0 — bin - hadoop2. 6. tez 文件 是 否 已 
经 成 功 上 传 到 虚拟 机 文件 系统 上 


[ root@ master setup_tools | #ls 


hadoop - 1. 2. 1 hadoop — 2. 6. 0. tar. gz jdk -8u65 — linux - i586. gz scala -2. 10. 4. tgz 
spark — 1. 6. 0 — bin — hadoop2. 6. tgz hadoop - 1. 2. 1 — bin. tar. gz jdk1. 7. 0_79 
scala — 2. 10. 4 spark — 1.6.0 - bin - hadoop2.6 spark - 1.6.0 - bin - ha- 
doop2. 6. tgz 


(3) 解压 并 安装 
输入 # tar — zxvf spark -1. 6. 0 -bin -hadoop2. 6. tgz 命令 进行 解压 。 


[ root@ master setup_tools |#tar —zxvf spark -1.6.0 -bin -hadoop2. 6. tgz 


将 spark -1. 6. 0 - bin - hadoop2. 6. tgz 解压 到 spark - 1. 6. 0 -bin - hadoop2.6 目录 以 后 ， 
使 用 ls 命令 查看 spark -1. 6.0 -bin - hadoop2. 6. tez 是 否 已 经 解压 完成 ， 使 用 # mv spark - 
1. 6. 0 - bin — hadoop2. 6/usr/local 命令 将 spark - 1. 6. 0 — bin — hadoop2. 6 目录 从 /usrlocal/set 
up_tools 目录 移动 到 /usr/local 目录 中 。 


[ root@ master setup_tools ]#mv spark -1.6.0 — bin -hadoop2.6 /urs/local 


(4) 配置 Spark 的 全 局 环境 变量 

输入 # vi /etc/profile MS, FIF profile 文件 ,输入 I(i) 可 以 进入 文本 输入 模式 ， 在 pro- 
file 文件 中 增加 SPARK_HOME 及 修改 PATH 的 环境 变量 ， 然 后 在 vi 中 按 Esc 键 , 输入 .wgql!， 
保存 并 退出 。 


export SPARK_HOME = /usr/local/spark — 1. 6. 0 -bin -hadoop2.6 

export 
PATH =. : $ PATH: $ JAVA_HOME/bin; $ HADOOP_HOME/bin; $ SCALA_HOME/bin; $ 
SPARK_HOME/bin 


(5) 环境 变量 配置 生效 
在 命令 行 中 输入 source /etc/profile 命令 ， 使 刚才 修改 的 SPARK_HOME 及 PATH 配置 
文件 生效 。 


[ root@ master spark — 1. 6. 0 -bin — hadoop2. 6 |#cd ~ 


[ root@ master ~ |#source /etc/profile 


(6) spark — env. sh 配置 文件 修改 
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输入 # cd /ust/local/spark -1. 6. 0 -bin - hadoop2. 6/conf 命令 ， 修 改 Spark 的 配置 目录 。 

输入 #mv spark - env. sh. template spark - env. sh 命令 ， 将 spark - env. sh. template 模板 文 
件 更 改 为 spark - env. sh, 

输入 名 称 # vi spark — env. sn， 打开 spark - env. sh M/F, HAT (i) 可 以 进入 文本 输入 
模式 ， 在 spark - env. sh 文件 中 ,配置 相关 参数 ， 然 后 在 vi 中 按 Esc 键 ， 输 入 :wdq!， 保 存 并 
退出 。 


export SCALA_HOME = /usr/local/scala -2. 10. 4 

export JAVA_HOME = /usr/local/jdk1. 8. 0_65 

export SPARK_MASTER_IP = 192. 168. 2. 100 

export SPARK_WORKER_MEMORY =512m 

export HADOOP_CONF_DIR = /usr/local/hadoop — 2. 6. 0/etc/hadoop 


(7) 查看 slaves 配置 文件 
输入 # vi slaves 命令 ， 查 看 slaves 文件 中 是 否 已 经 有 localhost 节点 。 


# A Spark Worker will be started on each of the machines listed below. 


localhost 


(8) 启动 Hadoop 所 有 服务 进程 集群 

因为 Hadoop 和 Spark 都 有 start - all. sh 执行 文件 ， 因 此 先进 入 Hadoop 的 bin H, 启动 
Hadoop 集群 。 

1) 输入 # cd /usr/local/hadoop -2. 6. 0/sbin, 

2) 输入 # start — all. sh。 

3) 输入 的 ps， 此 时 可 以 看 出 Hadoop 有 5 个 进程 


tt 


[ root@ master sbin |# start — all. sh 

This script is Deprecated. Instead use start — dfs. sh and start — yarn. sh 
16/01/23 16:57:02 WARN util. NativeCodeLoader ; Unable to load native — hadoop library for your 
platform... using builtin — java classes where applicable 

Startingnamenodes on [ Master | 
Master; startingnamenode, logging to /usr/local/hadoop — 2. 6. 0/logs/hadoop — root — namenode — 
master. out 
localhost; startingdatanode, logging to /usr/local/hadoop — 2. 6. 0/logs/hadoop — root — datanode — 
master. out 

Starting secondarynamenodes | 0. 0. 0. 0 | 
0. 0. 0. 0: startingsecondarynamenode, logging to /usr/local/hadoop — 2. 6. 0/logs/hadoop — root — 
secondarynamenode — master. out 
16/01/23 16:57:29 WARN util. NativeCodeLoader ; Unable to load native — hadoop library for your 
platform. . using builtin — java classes where applicable 

starting yarn daemons 
startingresourcemanager, logging to /usr/local/hadoop — 2. 6. 0/logs/yarn — root — resourcemanager 


— master. out 
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localhost :startingnodemanager logging to /usr/local/hadoop — 2. 6. 0/logs/yarn — root — nodemanager — 


master. out 


[ root@ master sbin | #jps 
7553 NodeManager 

7153 DataNode 

7462 ResourceManager 
7320Secondary NameNode 
7066 NameNode 

7823 Jps 

[ root@ master sbin | # 


+ 


(9) 局 动 Spark 集群 

进入 Spark 集群 的 sbin 目录 。 

1) 输入 #cd /usr/local/spark — 1. 6. 0 -bin -hadoop2. 6/sbin。 

2) 输入 # start - all. sh, 

此 时 Spark 集群 已 经 启动 ， 通 过 JPS 查看 进程 ， 可 以 看 到 在 Hadoop 的 5 个 进程 的 基础 
E, Spark 运行 worker 和 master 两 个 进程 ， 如 下 : 


[ root@ master sbin |# start — all. sh 
starting org. apache. spark. deploy. master. Master, logging to /usr/local/spark — 1. 6. 0 — bin -ha- 
doop2. 6/logs/spark — root — org. apache. spark. deploy. master. Master — 1 — master. out 
localhost: starting org. apache. spark. deploy. worker. Worker, logging to /usr/local/spark — 1.6.0 
— bin — hadoop2. 6/logs/spark — root — org. apache. spark. deploy. worker. Worker -1 — master. out 

[ root@ master sbin | #jps 

7553 NodeManager 

7153 DataNode 

7971 Ips 

7845 Master 

7462 ResourceManager 

7320SecondaryNameNode 

7898 Worker 

7066 NameNode 


[ root@ master sbin | # 


(10) 启动 spark — shell 
输入 # spark - shell 命令 ， 启 动 spark shell 这 里 显示 Spark 版 本 为 version 1. 6.0， 如 图 1-22 


AZAR o 
从 图 中 可 以 看 到 ， 在 spark shell 环境 中 出 现 了 熟悉 的 Scala 提示 符 ， 因 为 Spark 原生 开发 
语言 是 Scala， 因 此 Spark 与 Scala 可 以 完美 集成 。 在 Scala 交互 式 命 令 行 中 ， 输 入 一 个 计算 


表达 式 ，Scala 准确 地 计算 出 了 1 +2 及 res0 *0.5 的 结果 。 


[root@master ~]# spark-shell 
16/01/23 17:17:20 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using 
builtin-java classes where applicable 
16/01/23 17:17:20 INFO spark.SecurityManager: Changing view acls to: root 
16/01/23 17:17:20 INFO spark.SecurityManager: Changing modify acls to: root 
16/01/23 17:17:20 INFO spark.SecurityManager: SecurityManager: authentication disabled; ui acls disabled; use 
rs with view permissions: Set(root); users with modify permissions: Set(root) 
16/01/23 17:17:21 INFO spark.HttpServer: Starting HTTP Server 
16/01/23 17:17:21 INFO server.Server: jetty-8.y.z-SNAPSHOT 
16/01/23 17:17:21 INFO server.AbstractConnector: Started SocketConnector@0.0.0.0:34446 
16/01/23 17:17:21 INFO util.Utils: Successfully started service 'HTTP class server' on port 34446. 
Welcome to 
ha] F-E 
S TE T NAS Sh 
/ IN FD FANN version 1.6.0 
EF 


/ 


Using Scala version 2.10.5 (Java HotSpot(TM) Client VM, Java 1.8.0 65) 

Type in expressions to have them evaluated. 

Type :help for more information. 

16/01/23 17:17:34 INFO spark.SparkContext: Running Spark version 1.6.0 
16/01/23 17:17:34 INFO spark.SecurityManager: Changing view acls to: root 
16/01/23 17:17:34 INFO spark.SecurityManager: Changing modify acls to: root 


图 1-22 启动 spark — shell 


scala >1 +2 

resO ; Int =3 

scala > res0 * 0.5 
resl ; Double =1. 5 
scala > 


在 Scala 提示 符 中 输入 exit 命令 ， 即 可 退出 spark shell 环境 。 
(11) 以 Web 方式 查看 Spark 
VMware Workstation 的 Linux 虚拟 机 的 Spark 启动 起 来 以 后 ， 在 Windows 本 地 计算 机 上 


(192. 168. 2. 1) 上 打开 Web 浏览 器 ， 在 浏览 器 中 输入 Spark 的 URL; http://192. 168. 2. 100; 
8080/， 就 可 以 查看 Spark 系统 的 相关 信息 。 


Bt, Spark 系统 安装 全 部 完成 ，Spark 安装 成 功 。 如 图 1-23 Ara. 
€ > C |D 192.168.2.100:8080 


Spaik® iso Spark Master at spark://192.168.2.100:7077 


URL: spark://192.168.2.100:7077 

REST URL: spark://192.168.2.100:6066 (cluster mode) 
Alive Workers: 1 

Cores in use: 1 Total, 0 Used 

Memory in use: 512.0 MB Total, 0.0 B Used 
Applications: 0 Running, 0 Completed 

Drivers: 0 Running, 0 Completed 


Status: ALIVE 
Workers 

Worker Id Address State Cores Memory 
worker-20160123165912-192.168.2.100-52543 192.168.2.100:52543 ALIVE 1 (0 Used) 512.0 MB (0.0 B Used) 


Running Applications 


Application ID Name Cores Memory per Node Submitted Time User State Duration 


Completed Applications 


Application ID Name Cores Memory per Node Submitted Time User State Duration 


图 1-23 Spark Web 页面 


(12) 关闭 Spark 服务 进程 
进入 Spark 安装 目录 的 bin 目录 。 
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1) 输入 #cd /usr/local/spark — 1. 6. 0 — bin -hadoop2. 6/sbin。 
2) 输入 # stop — all. sh, 
关闭 Spark 服务 进程 。 


[ root@ master sbin |#cd /usr/local/spark -1. 6. 0 -bin - hadoop2. 6/sbin 
[ root@ master sbin |# stop — all. sh 

localhost ; stopping org. apache. spark. deploy. worker. Worker 

stopping org. apache. spark. deploy. master. Master 


E Eg Scala 开发 环境 搭建 和 HelloWorld 实例 


Scala 集成 开发 工具 的 安装 


1. Scala IDE for Eclipse 的 安装 
Scala IDE 是 Scala 集成 开发 工具 ， 在 Eclipse 开发 集成 环境 中 安装 Scala 的 插件 ， 主 要 功 
能 包括 : 同一 个 项 目 中 混合 编辑 Scala/Java 文件 ; Scala 编辑 器 支持 语法 高 亮 显 示 ， 代 码 自 
动 完 成 ， 标 记 错 误 ， 调 试 代码 ; 显示 代码 大 纲 视图 等 。 
1) 登录 Scala IDE 的 官网 (http://scala — ide. ore/) ， 单 击 下 载 download IDE， 如 图 1-24 
所 示 。 


scala-ide.org 


Ag ScalalDE 


Version 4.3.0 ME scalalD 


Scala IDE 


New and Noteworthy in 3.0 
Overview 


Features Twitter 
4 Botle java | Support for Mixed ScalalJava Projects Loe asc eee 
© Bottle Tweets by @Stalai DE 
3) Container, Support for mixed Scala/Java projects and any combination of ScalaJava project 
© Contain dependencies, allowing straightforward references from Scala to Java and vice versa 


QOWatarne 


图 1-24 Scala IDE 的 官网 


根据 安装 机 器 的 操作 系统 版 本 ， 选 择 不 同 的 Scala IDE 版 本 ，64 位 的 操作 系统 选择 Win- 
dows 64 bit 版 本 ，32 位 的 操作 系统 选择 Windows 32 bit 的 Scala IDE， 单 击 Windows 32 bit， 将 
scala — SDK -4. 1. 0 — vfinal -2. 11 - win32. win32. x86. zip 保存 到 Windows 本 地 目录 ， 如 图 1-25 
所 示 。 


Scala 零 基础 入 门 


D scala-ide.org/download/sdk.html 


4.3.0 Release 


This release is available for Scala 2.11 (with support for Scala 2.10 projects in the same workspace) and is based on Eclipse 4.4 
(Luna). See Release Notes and the Changelog for a detailed list of changes. 


For Scala 2.11.7 


Download IDE Windows - 64 bit 


Windows Mac Linux 
Windows 64 bit Mac OS X Cocoa 64 bit Linux GTK 64 bit 
Windows 32 bit Mac OS X Cocoa 32 bit Linux GTK 32 bit 


Requirements 
+ JDK 6, JDK 7 or JDK 8 


Get Started 


Get started by watching the videos or reading the docs and tutorials 
1-25 下 载 页 面 


2) 解压 缩 scala - SDK -4.1.0 -vinal -2.11 - win32. win32. x86. zip 到 Windows 的 本 地 
HR, 无须 安装 ， 直 接 双 击 eclipse. exe， 即 可 运行 Scala IDE 开发 集成 环境 ， 如 图 1-26 
所 示 。 


Workspace Launcher 


Select a workspace 


Scala IDE stores your projects in a folder called a workspace. 
Choose a workspace folder to use for this session. 


ett teste: \scala\scala_workspace X Browse... 


Use this as the default and do not ask again 


Al1-26 Scala IDE 安装 页 面 


选择 Scala IDE 的 工作 空间 ，Scala IDE 将 把 之 后 创建 的 项 日 保存 在 工作 空间 的 文件 夹 
中 ， 然 后 进入 Scala IDE 的 主 界面 ， 即 Scala IDE 的 工作 台 窗 口 。Scala IDE 的 工作 台 主 要 由 
菜单 栏 、 工 具 栏 、 透 视图 、 透 视图 工具 栏 、 项 目 资源 管理 器 视图 、 大 纲 视图 、 编 辑 器 和 其 他 
视图 组 成 ， 如 图 1-27 所 示 。 

在 Scala 的 开发 中 ， 可 以 使 用 Scala IDE 作为 Scala 的 集成 开发 工具 。 

2. IntelliJ IDEA 

登录 IDEA 的 官网 ， 打 开 http://www. jetbrains. com/idea/ 网 站 ， 单 击 download 进行 IDEA 
的 下 载 。IDEA 全 称 是 mtelliJ IDEA, Æ Java 语言 开发 的 集成 环境 ， 具 备 智能 代码 助手 、 代 码 
自动 提示 、 重 构 、J2EE XIP, Ant, JUnit, CVS 整合 、 代 码 审查 等 方面 的 功能 ， 支 持 Maven, 
Gradle 和 STS， 集 成 Git、SVN 、Mereurial 等 。 如 图 1-28 所 示 。 


语言 基础 与 开发 实战 


Escala - Scala IDE 


Fila Eis enone fh Navigate Search Protectan Gea lemme Winicicnemattales 
o-~HeeMeFha ee wH-OrGr OH 


Hr rOy Quick Access | B | (SF Scala) &? Java + Debug | 


aa | 


H Package Ex.. X 7 O 
as = 


b EE ScalalnAction 


WW m 


c Tasks 目 Console % mO-~om-ro 
No consoles to display at this time. 


[oora [6 


Building workspace 


Al 1-27 Scala IDE 的 工作 空间 


! D wwwJetbrains.com/idea/ 


NETAVISUALSTUDIO = TEAMTOOLS STORE SUPPORT WE ARE JETBRAINS o Q 


IntelliJ IDEA 


BS 


1-28 IDEA 的 官网 


TS ë HelloWorld 编程 实例 


本 小 节 通 过 HelloWorld 的 实例 ,一 步 步 引导 没有 接触 过 Scala 编程 开发 的 读者 建立 Scala 
IDE 的 开发 环境 ， 在 Scala IDE 中 实现 第 一 个 Scala 源 代码 的 开发 ， 最 终 在 Console 页 面 中 打 
印 输出 一 行 语句 “Hello Scala!!! A new World!!!” , 

(1) 创建 项 目 ScalaInAction 

启动 Scala IDE， 选 择 一 个 工作 空间 ， 进 入 Scala IDE 的 开发 页 面 。 

单 击 菜单 栏 中 的 File 菜单 ， 选 择 new 一 Scala Project 命令 ， 弹 出 New Scala Project 对 话 


框 ， 如 图 1-29 所 示 。 


TE cc ce 
Create a Scala project 
Create a Java project in the workspace or in an external location. 


Project name: ScalalnAction 


V] Use default location 


Location: [G:\scala\scala_workspace\ScalalnAction | A Browse... 5 

JRE 

@ Use an execution environment JRE: | JavaSE-1.7 v 
Use a project specific JRE: [jdk1.7.0.13 7 j = 
Use default JRE (currently ‘jdk1.7.0_13') Configure JREs... 


Project layout 


Use project folder as root for sources and class files 


@ Create separate folders for sources and class files Configure default... 


Working sets 


M] Add project to working sets 


Working sets: MM Select... 


@ The wizard will automatically configure the JRE and the project layout based on 
the existing source. 


Q) < Back | Next > | Finish Cancel 


图 1-29 新建 项 目 


在 Project Name 文本 框 中 输入 Scala 项 目 名 称 ScalaInAction， 其 他 使 用 系统 默认 的 选项 ， 
单 击 Next 按钮 ， 使 用 默认 方式 ， 单 击 Finish 按钮 ， 完 成 项 目 ScalalnAction 的 创建 ， 此 时 在 
项 目 资源 管理 器 中 ， 展 开 ScalalnAction 节点 ， 将 依次 显示 项 目的 目录 结构 ， 如 图 1-30 所 示 。 

(2) 创建 包 com. dt. scala. hello 

在 sro 单 击 鼠标 右键 ， 选择 New — Package 命令 , 在 Name 文本 框 中 输入 
com. dt. scala. hello 包 名 ， 单 击 Finish 按钮 完成 操作 ， 如 图 1-31 所 示 。 新 建 包 完成 以 后 ， 如 
图 1-32 所 示 。 

(3) 创建 HelloScala. Scala 文件 

com. dt. scala. hello 包 建 立 完成 后 ， 在 com. dt. scala. hello 包 上 单 击 鼠标 右键 ， 新 建 一 个 
Scala Object 文件 ， 弹 出 一 个 New File Wizard 对 话 框 ， 在 Name 文本 框 中 输入 com. dt. scala. 
hello. HelloScala ， 单 击 Finish 按钮 完成 操作 ， 如 图 1-33 所 示 。 

在 编辑 框 中 已 经 可 以 看 到 Scala IDE 自动 生成 的 源 代 码 ， 如 图 1-34 所 示 。 

(4) 编写 Scala 开发 Hello world 第 一 行 代码 

定义 Scala À H phi def main( args :Array[ String] ) | | ， 然 后 在 main 函数 体 中 输入 第 一 行 


| Source Refactor Refactor Navigate Search Project Scala Run Window Help 


a- Hee BIERKE: a- 0-A- B~ 

E hoy ds Quick Access | E | (Fse) lave # Debug 
I Package Explorer x] B % veg =. & 
4  ScalalnAction a 


D> @ src 
4 BA Scala Library container [ 2.11.7] 
> G8 org.scala-lang.scala-library_2.11.7.v20150622-112736-1t 
> G8 org.scala-lang.scala-reflect_2.11.7.v20150622-112736-1f 
> Ge org.scala-lang.scala-actors_2.11.7.v20150622-112736-1f 
4 BA JRE System Library [JavaSE-1.7] 
> 二 resourcesjar - C:\Program Files\Java\jdk1.7.0_13\jre\lib 
> $ rtjar - C:\Program Files\Java\jdk1.7.0_13\jre\lib 
> gy jssejar - C:\Program Files\Java\jdk1.7.0_13\jre\lib 
> ge jcejar - C:\Program Files\Java\jdk1.7.0_13\jre\lib 
> $ charsetsjar - C:\Program Files\Java\jdk1.7.0_13\jre\lib 
> Qa jfrjar - C:\Program Files\Java\jdk1.7.0_13\jre\lib 
> (as access-bridge.jar - C:\Program Files\Java\jdk1.7.0_13\jr = 
> @@ dnsnsjar - C:\Program Files\Java\jdk1.7.0_13\jre\lib\ext | ~ 
> (as jaccess.jar - C:\Program Files\Java\jdk1.7.0_13\jre\lib\ex [= 
> Gd localedatajar - C:\Program Files\Java\jdk1.7.0_13\jre\lit| No consoles to display at this time. 
> @@ sunecjar - C:\Program Files\Java\jdk1.7.0_13\jre\lib\ext 
> 加 sunjce_providerjar - C:\Program Files\Java\jdk1.7.0_13\ 
> 为 sunmscapijar - C:\Program Files\Java\jdk1.7.0_13\jre\lit 
> 加 sunpkcslljar - C:\Program Files\Java\jdk1.7.0_13\jre\lit 
> @ zipfsjar - C:\Program Files\Java\jdk1.7.0_13\jre\lib\ext 
scalaFile.txt 


4 m È 
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[Building workspace 


Proble.. Ë) Tasks EJ Console X = 日 


B] 1-30 ScalalnAction 节点 页 面 


| New Java Package O T al)! x 


Java Package 
Create a new Java package. j 


Creates folders corresponding to packages. 


Source folder: ScalalnAction/src Browse... 


Name: com.dt.Scala.hello| 


Create package-info.java 


图 1-31 新建 包 
Scala 源 代码 println(" Hello Scala!!! A new World!!!" ) ， 如 图 1-35 所 示 。 


然后 在 文本 框 中 单 击 鼠 标 右键 ， 选 择 Run as—Scala Application 命令 ， 运 行 HelloScala FE 
序 。 如 图 1-36 所 示 。 
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File Edit Source Refactor Refactor Navigate Search Project Scala Run Window Help 
n- Een na AA a#-0-Q- ag~- 
Poy a ae S Quick Access | E | (BF saa) & Java 4% Debug 


f Package Explorer 5% | ey 日 = 6 
a @ ScalalnAction 
B 
b 册 com.dtscalahello 

4 BA Scala Library container [ 2.11.7 ] 
> Š org.scala-lang.scala-library_2.11.7.v20150622-11273€ 
> É org.scala-lang.scala-reflect_2.11.7.v20150622-112736 | 
> G8 org.scala-lang.scala-actors_2.11.7.v20150622-112736 

4 Bi JRE System Library [JavaSE-1.7] 
> É resources,jar - C:\Program Files\Java\jdk1.7.0_13\jre\ 
> a rtjar - C:\Program Files\Java\jdk1.7.0_13\jre\lib 
> Qs jssejar - C:\Program Files\Java\jdk1.7.0_13\jre\lib | 
加 jcejar - C:\Program Files\Java\jdk1.7.0_13\jre\lib 
> $ charsetsjar - C:\Program Files\Java\jdk1.7.0_13\jre\li 
> Qe jfrjar - C:\Program Files\Java\jdk1.7.0_13\jre\lib 
> 加 access-bridge,jar - C:\Program Files\Java\jdk1.7.0_13 
> & dnsnsjar - C:\Program Files\Java\jdk1.7.0_13\jre\lib\\ mO-m- 
> (i jaccessjar - C:\Program Files\Java\jdk1.7.0_13\jre\\ib|_|| No consoles to display at this time. 
> & localedatajar - C:\Program Files\Java\jdk1.7.0_13\jre| 
> & sunecjar - C:\Program Files\Java\jdk1.7.0_13\jre\lib\¢ 
> 加 sunjce_providerjar - C:\Program Files\Java\jdk1.7.0_] 
> 本 sunmscapijar - C:\Program Files\Java\jdk1.7,0_13\jre 
> @§ sunpkcslljar - C:\Program Files\Java\jdk1.7.0_13\jre— 
> @ zipfsjar - C:\Program Files\Java\jdk1.7.0_13\jre\lib\e: | 
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5 iJ 
E3 New File Wizard “rmy 


Create New File —> 
= 

Kind: |@ Scala Object "| 

Source Folder: |ScalalnAction/src 

Name: com.dt.scala.hello.HelloScala| | 


|© ne 


图 1-33 新 建文 件 


如 果 在 Console 端 上 显示 Scala 运行 结果 : Hello Scala!!! A new World11!， 则 说 明 程 序 
运行 成 功 ， 如 图 1-37 所 示 。 

(5) 给 main 入 口 函 数 传 人 运行 参数 

在 文本 编辑 框 中 使 用 // 注 释 符 将 println (" Hello Scala!!! A new World! !!") 注释 掉 ， 
增加 一 个 for 循环 语句 for (arg < - args) printlh (arg)， 将 传人 main 函数 的 参数 列表 赋值 


DI see. oA ITE ARGH nn E 
File Edit Refactor Navigate Search Project Scala Run Window Help 

0- uten na AA RH Ora e7 

Wr grewaryor Quick Access | B (Esaa) 8 save ¥ Debug 
气 ee E HelloScala.scala 5% eer 


>G> a> Br O> © <init>0: onal 
package com.dt.scala.hello 


o 


IE Package Explorer 5% 
a © ScalalnAction 
4 @ sre 
4  com.dtscala.hello 
> [B HelloScala.scala | 
4 mì Scala Library container [ 2.11.7 ] | 
> G8 org.scala-lang.scala-library_2.11.7.v20150622-112736 
> Š org.scala-lang.scala-reflect_2.11.7.v20150622-112736 | 


a 
m 
| 
| 


ee HelloScala { 


} 


| 
I | 
| > Qe org.scala-lang.scala-actors_2.11.7.v20150622-112736 | 
| 4 BA JRE System Library [JavaSE-1.7] | 
> Gi resourcesjar - C:\Program Files\Java\jdk1.7.0_13\jre\ | 
> É rtjar - C:\Program Files\Java\jdk1.7.0_13\jre\lib = 
| b jssejar - C:\Program Files\Java\jdk1.7.0_13\jre\lib | a 


> Qe jcejar - C:\Program Files\Java\jdk1.7.0_13\jre\lib | q F 
> gy charsetsjar - C:\Program Files\Java\jdk1.7.0_13\jre\li| f 7 
> 二 jfrjar - C:\Program Files\Java\jdk1.7.0_13\jre\lib | 
> fd access-bridgejar - C:\Program Files\Java\jdk1.7.0_13 | = 是 = 
| 
| 


> @@ dnsnsjar - C:\Program Files\Java\jdk1.7.0_13\jre\lib\\ No consoles to display at this time. 
> (a jaccessjar - C:\Program Files\Java\jdk1.7.0_13\jre\lib| 
> @ localedatajar - C:\Program Files\ava\jdk1.7.0_13\jre| | 
| b Z sunecjar - C:\Program Files\Java\jdk1.7.0_13\jre\lib\ | 
> (a) sunjce_providerjar - C:\Program Files\Java\jdk1.7.0_4 
图 sunmscapijar - C:\Program Files\Java\jdk1.7.0_13\jre 
> 图 sunpkcslljar - C:\Program Files\Java\jdk1.7.0_13\jre ~ 
4 m 上 
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图 1-34 ”编辑 源 代码 


EJ Scala - ScalainActi 
File Edit Refactor Navigate Search Project Scala 


07 atena AA x-0- Q7 opr 
By Flr ee a Quick Access || E | (EF Scala) & Java +5 Debug 
HÈ Package Explorer 52 = 日 |M *HelloScalascala 33 | =" jel e 
=e | PS 四 src H comdtscalahello » © HelloScala » & main a 
4 ES ScalalnAction a package com.dt.scala.hello a 
4 @ src 


object HelloScala { 
def main(args: Array[String])K 
println("Hello Scala!!!A new World!!!") 


i | 
} 


I 4 册 com.dt.scala.hello 
> [B] HelloScala.scala 
4 BA Scala Library container [ 2.11.7 ] 
> G8 org.scala-lang.scala-library_2, 
> Qe org.scala-lang.scala-reflect_2. 


> Qe org.scala-lang.scala-actors_2. 
4 BA JRE System Library [JavaSE-1.7] 
> Ge resourcesjar - C:\Program Fill = | 
| > Ga rtjar - C:\Program Files\Javal = 
> 3 jssejar - C:\Program FilesVay 4 


上 jcejar - C:\Program Files\Jave 
> Á charsetsjar - C:\Program File! 
> Ge jfrjar - C:\Program FilesWaval 
加 access-bridgejar - C:\Prograi 
> i dnsnsjar - C:\Program Files\J 
> (ag jaccess,jar - C:\Program Files) 
> fg localedatajar - C:\Program Fil 
加 sunecjar - C:\Program Files\J 


E Problems &) Tasks EJ Console X @@-~arrca 


No consoles to display at this time. 


| 加 sunjce_providerjar - C:\Progr 
加 sunmscapijar - C:\Program Fi = 


| 
| Writable | Smart Insert | 4:32 185M of 440m |Ü 


图 1-35 ”编辑 代码 
给 arg 变量 ， 每 遍历 一 次 就 打印 出 一 行 参数 ， 直 至 循环 结束 。 

在 Scala IDE 集成 开发 环境 中 ， e main 入 口 函 数 传人 参数 时 ， 可 以 在 文本 框 中 单 击 
鼠标 右键 ， 选 择 Run as 一 Run Configurations 命令 ， 如 图 1-38 所 示 。 

弹出 Run Configurations 的 配置 对 话 框 ， 在 Arguments 选项 卡 中 程序 参数 Program argu- 


Navigate Search Project Scala Run Window Help 
o-Hee BIERE: "OG BV” 
+ Elroy Quick Access | E | (EF Scala |? Java + Debu 
Open Call Hierarchy Ctri+Alt+H | . [ex fe betes 
RE Alt+Shift+B H Package Explorer 53 = E |M HelloScala.scala 2 | oan F 
Quick Outline Ctrl+O & 了 > > src > HH comdtscalahello > @ HelloScala 》 È main oF 
5 i a a 
Open With 5 4 = oe package com.dt.scala.hello 
Show In Alt+Shift+W > ty object HelloScala { 
4 出 comdtscala.hello def main(args: Array[String])K 
oh Ctrl+X b [B) HelloScala.scala printIn("Hello Scala! !!A new World!!!") 
| ii i } 
4 BA Scala Library container [ 2.11.7 ] 
en A “Sane > G8 org.scala-lang.scala-library_2, } 
Copy Qualified Name > 部 org.scala-lang.scala-reflect_2. 
Paste Ctrl+V > Qe org.scala-lang.scala-actors_2. 
= 4 BA JRE System Library JavaSE-1.7] 
Quick Fix > Gd resourcesjar - C:\Program Fill =| 
Source Alt+Shift+S » > Š rtjar - C:\Program FilesWavay a 
Refactor » > gg jssejar - C:\Program FilesVay i = a + 
omni > > gud jeejar - C:\Program Files\Jave| | = = 
ry | > Š charsetsjar - C\Program Fileli | 本 Problems 办 Tasks © Console X a 
References > > & jfrjar - C:\Program Files\Java’ Bx %| & Be! @G-~ oe 
eee i > i access-bridgejer - CA\Progral | <terminated> HelloScala$ [Scala Application] C:\Program FilesVava\jdk1.3 
| > 加 dnsnsjar - C:\Program FlesN Hello Scala!!!A new World!!! a 
Show Type Ctrl+Shift+Q | > fad jaccessjar - C\Program Files! 
Open Implicit Alt+F3 > (2 localedatajar - C:\Program Fi 
| > 9 sunecjar - C:\Program Files\) 
Debug As » | 图 sunjce_providerjar - C:\Progr 
Run As 上 > @@ sunmscapijar - C:\Program Fi ~ - 
Validate | JWE + 
Team » | | Writable | Smart Insert | 4:32 314M of 449M T 
Compare With > 
、 、\、 一 一 
图 1-36 选择 Run as 命令 图 1-37 Scala 运行 结果 
Run As >| [B® 1Scala Application Alt+Shift+X, S 
Van Run Configurations... 
Team 


图 1-38 给 main 入 口 函 数 传人 参数 


[Thun Conor TO ee 


Create, manage, and run configurations © 
iB 其 | El 3 * Name: HelloScala$ 
(type filter text ||| (@ Main {oa Arguments \ mÀ JRE) % Classpath) by Source) B Environment | E Common) 
FunctionOps$ (1) £ Program arguments: an 
||| FunctionOps$ (2) Scala Spare” Had j | | 
FunctionOps$ (3) ee Se es 
HelloOOP$ = 
HelloScala$ Variables: 
higher_order_functions$ 
List_Interal$ VM arguments: 
ListBuffer_ListArray Queue a | 
ObjecOps$ > | | 可 
OOPInScala$ | 
||| OverrideOperations$ Variables... | 
PartialAppliedFuntion$ z 5 | 
SAMS Working directory: 
ScalaBasics$ © Default: | ${workspace_loc:ScalalnAction} | 
Test$ © Other: | | 
TupleOps$ | 
UseTrait$ Workspace... | File System... | | Variables.. | 
~ 
ila Interpreter 3 
=. en 
evei 
Filter matched 36 of 37 items sii — 
© m 


图 1-39 传人 参数 
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将 Scala Spark Hadoop Java 字符 串 作 为 参数 传人 main 函数 ， 单 击 Run 按钮 运行 HelloScala 程 
Æ, for 语句 循环 遍历 读 和 人 main 的 参数 ， 然 后 在 Console 端 上 打印 。 程 序 运 行 结 果 如 图 1-40 所 示 。 
JE Seal Scloinn a BP] ES RT RTS HTS al cls TOE Ne 
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reef Be % HOG SH 
Hg -fe yay Quick Access we | (BF Scala | Java 4f Debug | 
HÈ Package Explorer 52 一 全 [E] Helloscala.scala £2 =. 0 
B& 了 > Öp src > H comdtscalahello > © HelloScala 》 È main ae 
4 ES ScalalnAction 四 ~ package com.dt.scala.hello ry 


a @ src 
4 Œ com.dtscala.hello 
> [B] HelloScala.scala 
4 BA Scala Library container [ 2.11.7 ] 
> G8 org.scala-lang.scala-library_2, 
> Ge org.scala-lang.scala-reflect_2. 


S object HelloScala { 

| def main(args: Array[String]){ 
//println("Hello Scala!!!A new World! !!") 
for(arg <- args) println(arg) 

} 


> G8 org.scala-lang.scala-actors_2. 
4 BA JRE System Library [JavaSE-1.7] 
> Qe resources,jar - C:\Program Fill = 


dg rtjar - C:\Program FilesVavaN $ 
Sq jssejar - C:\Program Files\Jav 4 + 
jcejar - C:\Program Files\Java 


> 
> $ charsetsjar - C:\Program File: [2l Problems $ Tasks | Œ Console 3 zp 
> Gi jfrjar - CNprogram FilesVaval a x% euE meny 
| > @ access-bridgejar - CNProgral <terminated> HelloScala$ [Scala Application] C:\Program FilesJava\dk1.7 pi 
| b 名 dnsnsjor - C:\Program Files\J a sal 
> @ jaccessjar - C:\Program Files\| | Hadoop 
\ > (i localedatajar - C:\Program Fil Java 
| > (a sunecjar - C:\Program Files\J 
> (a8 sunjce_providerjar - C:\Progr | 
| > (3 sunmscapijar - C:\Program Fi ~ -| 
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WorkSheet 的 使 用 


在 Scala IDE 中 有 一 个 很 便捷 的 功能 : Worksheet。 类 似 于 Scala 交互 式 命令 行 中 的 代码 
MR, Æ Worksheet 输入 Scala 表达 式 ， 保 存 以 后 会 立即 得 到 程序 运行 结果 ， 有 助 于 初学 者 
学 习 Scala。 

新 建 一 个 WorkSheet， 在 包 com. dt. scala. hello 上 单 击 鼠标 右键 ， 选 择 New 一 Scala Work- 
sheet 命令 ， 如 图 1-41 所 示 。 


New >| (89 Scala Project 
Go Into FP Project... 
Open in New Window AY Package 
Open Type Hierarchy F4 | @ Scala Class 
Show In Alt+Shift+W > | G Scala Trait 
Copy Ctrl+C (0) | Selb sees! z 
Copy Qualified Name G Scala Package Object 
[Ñ Paste cuv |Œ Scala App 
X Delete Bales & Source Folder 
CÌ Folder 
Build Path » [2 File 
Source Alt+Shift+S > D> Play Template 
Refactor Alt+Shift+T > @ | Scala Worksheet 
Ba Import... FÌ Example... 
Òs Export... 
FÌ Other... Ctrl+N 
图 1-41 选择 WorkSheet 命令 
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弹出 New Scala WorkSheet 的 配置 对 话 框 ， 在 Worksheet name 文本 框 中 输入 名 称 Scalaln- 
Action. se， 如 图 1-42 所 示 。 


T To ence x | 
| New Scala Worksheet 2 


Scala Worksheet 


Create a new Scala WorkSheet 


Enter or select the parent folder: 


| ScleinAcionsr/eom/dyscaofhelo 
We 25 ch 
| [fj | Sa 


© settings a 


> @ worksheet 

> & bin 

4@src 

a B com 
4@dt 
4@ scala 

& functiombasics 
© function 
© hello 
© oop 


Worksheet name ScalalnAction.sq 


@ Finish Cancel 


1-42 新 建 Worksheet 


单 击 Finish 按钮 ， 进 入 ScalalnAction. sc 页 面 ， 页 面 的 左 侧 是 Scala 的 源 代 码 ， 右 侧 A> 就 
是 代码 的 运行 结果 ， 在 WorkSheet 中 无 须 单 击 运行 按钮 ， 每 次 只 需 保 存 就 能 实时 看 到 代码 运 
行 的 结果 ， 非 常 方便 。 这 里 WorkSheet 页 面 自动 生成 的 一 行 代 码 println (" Welcome to the 
ScalaWorkSheet" ) ， 在 VJ 右边 就 会 显示 结果 Welcome to the ScalaWorkSheet; 在 WorkSheet W 
试 一 下 ,分 别 输 入 1 +2、100 + " Spark" ， 在 分 右边 就 会 显示 结果 res0:Int(3) =3 resl: 
String = 100 Spark。 


1. println(" Welcome to the Scala worksheet" ) “> Welcome to the Scala worksheet 
2 2 MA>res0:Int(3) =3 
3. 100+" Spark" “> resl :String = 100 Spark 


1) 变量 的 使 用 


(7 | Scala 解释 器 中 的 变量 示例 


在 Windows 系统 中 选择 “开始 ”一 “和 运行” 命令， 在 “运行 ”窗口 中 输入 CMD 命 
令 ， 进 入 DOS 环境 ， 在 命令 行 提示 符 中 直接 输入 scala， 按 Enter 键 ， 进 入 Scala 交互 式 命 
ea 
x 


© 
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C: \Users\admin \ Desktop > scala 
Welcome to Scala version 2. 10.4 (Java HotSpot(TM) Client VM, Java 1. 8.0_65). 


Type in expressions to have them evaluated. 


Type :help for more information. 


scala > 


输入 3 * 9 +10, Scala 交互 式 命令 行将 结果 自动 命名 为 res0 ，res0 为 Int 类 型 。 如 例 1-1 
所 示 。 
【 例 1-1】 Scala 简单 计算 。 


scala >3*9+10 
res0 ; Int = 37 


" 


scala > res0 +" hello spark" 


res] ; String =37 hello spark 


scala > resO +2. 0 

res2 ; Double = 39. 0 

scala > resl. toUpperCase 
res4 ; String =37 HELLO SPARK 


scala > 


Sg es ee ee eS 


将 res0 与 "hello Spark!" 相 加 ， 会 得 到 res] 的 计算 结果 ，Scala 将 类 型 推断 为 String， 计 
算 结果 为 "37 hello Spark!" ， 随 后 可 以 对 resl 调用 toUpperCase 方法 将 字符 串 “37 hello 
Spark1!” 中 的 小 写字 母 转换 为 大 写字 母 ， 得 到 值 “37 HELLO SPARK!”, res3 的 变量 类 型 为 
String。 

将 res0 与 2. 0 相 加 ， 会 得 到 res2 的 计算 结果 ，Scala 将 类 型 推断 为 Double， 计 算 结 果 为 
39.0; res0 、resl 、res2 、res3 分 别 为 Scala 解释 器 自动 运行 命名 的 变量 。 那 么 怎么 定义 一 个 
变量 呢 ? 

先 来 看 一 下 Java 中 的 变量 与 常量 。 在 Java 中 ， 常 量 指 的 是 在 程序 运行 过 程 中 ， 值 不 可 
改变 的 量 ， 可 以 使 用 final 变量 关键 字 来 定义 常量 ， 如 final float PI =3. 1415926f 表示 定义 PI 
的 常量 ， 只 能 赋 一 次 值 ， 以 后 直接 使 用 常量 值 ，Java 中 的 变量 是 指 在 程序 执行 过 程 中 ， 值 可 
以 动态 改变 的 量 ， 用 来 存储 各 种 类 型 的 数据 ， 在 软件 开发 过 程 中 根据 业务 逻辑 的 需要 随时 改 
变 变 量 中 的 数据 。 如 int sum =100; sum = sum +100, sum 的 值 为 200， 值 在 动态 变化 。 

Scala 中 有 两 种 变量 定义 : val 和 var， 下 面具 体 介 绍 。 


val 变量 的 定义 


类 似 Java 中 常量 的 定义 ，val 相当 于 Java 的 final 常量 ， 一 旦 给 val 变量 赋值 ， 则 val 变 
量 不 可 以 再 做 修改 。 

在 Scala 交互 式 命令 行 中 定义 一 个 val 的 变量 greetString， 给 greetString 赋值 " hello 
Spark!!1" , println 打印 出 greetString 变量 值 。 如 例 1-2 所 示 。 

【 例 1-2】Scala 定义 val 变量 。 
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om 


, val 变量 不 可 改变 值 ， 


//val 值 greetString 不 能 更 改 ,提示 出 错 


1. scala > valgreetString = " hello spark!" /给 val 变量 greetString 赋值 

2. greetString: String = hello spark! 

3. scala > println( greetString ) 

4. hello spark! 

5. scala > 
接着 对 greetString 继续 赋值 H F greetString 定义 的 值 是 val 变量 

知 再 赋值 编译 需 就 提示 出 错 : error; reassignment to val。 如 例 1-3 所 示 。 

【 例 1-3】 Scala val 变量 无 法 赋值 。 

1. scala > greetString = "hello spark! hello java!" 

2 < Console > :8 ;error:reassignment to val 

3. greetString = "hello spark! hello java!" 

4 7 

5 scala > 


var 变量 的 定义 


) 


类 似 Java 中 变量 的 定义 ，Scala 中 的 var 2 


在 Scala 交互 式 命令 行 中 定义 一 个 
Scala!" ， 显 示 msgString 为 String 类 型 ， 

重新 给 msgString 赋值 "welcome to Scala! and Spark!" , 
出 msgString 的 值 
所 示 。 

【 例 1-4】 Scala 定义 var 变量 。 


scala > vargreetString = "welcome to Scala!" // 定 义 var 


greetString : String = welcome to Scala! 


scala > println( greetString ) 


scala > greetString = "welcome to Scala! and spark!" 


1 
2 
3 
4 
5. welcome to Scala! 
6 
7 
8 


greetString : String = welcome to Scala! and spark! 


scala > 


var 的 变量 msgString, 44 


打印 输出 msgString 的 值 


“welcome to Scala! and Spark!”， 其 中 msgString 的 值 发 生 了 改变 


变量 相当 于 Java 的 变量 , var 变量 可 以 动态 地 进 


给 msgString 赋值 " welcome to 


“welcome to Scalal”。 


显示 msgString YY String 类 型 ， 打 印 输 
。 如 例 1-4 


变量 greetString 


//var 变量 greetString 可 以 重新 赋值 


var 变量 与 val 变量 的 使 用 比较 


1. oe var 变量 定义 的 示例 


给 main ÀA O RAURA ZI HelloWorld 例子 中 ， 可 以 在 程序 运行 参数 列表 中 传人 参数: 
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“Scala Spark Hadoop Java”， 如 图 1-43 所 示 。 


| 


Create, manage, and run configurations @ 
Gm xley~ Name: HelloScalas | 
vpefikeriet | (@ Main [W= Arguments ~ EÀ JRE] % Classpath| By Source| 国 Environment| 回 Common 
FunctionOps$ (1) 和 四 

||| FunctionOps$ (2) Scale Spark Hoop Sata 
向 cala Spark Hadoop Jav 
HellooOP: - 

Variables... 
VM arguments: 
ObjecOps$ 
OOPInScala$ 
OverrideOperations$ Variables... 
PartialAppliedFuntion$ Pea 
shes Working directory: 
ScalaBasics$ = © Default: | $workspace_loc:ScalalnAction) 
Test$ © Other: | 
TupleOps$ 2 
UseTrait$ Worksp: File System.. Variables. 一 
la Interprete: z 
| m | 
Apply Re 
Filter matched 36 of 37 items si | 
® Run Close 


1-43” 传 参 页 面 


现在 改 用 var 变量 的 指令 式 风 格 来 改变 一 下 代码 ， 先 定义 一 个 var 变量 i， 然 后 用 while 
循环 语句 来 判断 变量 i 是 否 小 于 参数 列表 的 长 度 ， 如 果 小 于 列表 长 度 ， 就 打印 输出 参数 的 
值 ， 给 var 变量 加 1， 至 循环 结束 。 如 例 1-5 所 示 。 

【 例 1-5】 Scala var 变量 指令 式 风格 定义 。 


1. package com. dt. scala. hello 

2. objectHelloScala | 

3. def main( args; Array[ String] ) : Unit = | 

4. var i=0 // 定 义 var 变量 ion 值 每 次 发 生变 化 
5. while (i < args. length) | // 如 i 小 于 参数 列表 的 长 度 ,循环 遍历 
6. println( args(i) ) 

7. i=l 

8. | 

9. | 

10. } 


运行 结果 如 图 1-44 tas, “Scala Spark Hadoop Java” 是 程序 运行 参数 列表 中 传人 的 参 
数 ， 依 次 打印 输出 。 


<terminated> HelloScala$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 
Scala 

Spark 

Hadoop 

Java 


1-44 运行 结果 


2. val 定义 的 函数 式 风 格 
以 下 HelloScala 的 示例 ， 与 var 变量 定义 对 比 ， 定 义 了 一 个 for 循环 语句 ， 将 args 的 参数 
列表 依次 放 入 到 arg 变量 中 ， 使 用 println 打印 输出 每 一 个 参数 来 实现 相应 的 功能 。 如 例 1-6 


d Scala 零 基础 入 门 


所 示 。 
【 例 1-6】 Scala val 变量 函数 式 风 格 定义 。 


package com. dt. scala. hello 
objectHelloScala | 
def main( args; Array[ String] ) :Unit = | 
//for 表达 式 的 生成 器 语法 “arg < - args” mi args 的 元 素 ,每 一 次 枚 举 ,名 为 arg 的 
新 的 val 就 被 元 素 值 初 始 化 ,因为 args 是 Array String ] , hy Eas de H arg 的 类 型 是 String 


for(arg <— args) 


println( arg) 


| 


BOP ILE SON ADE thee ee ede 


| 


运行 结果 如 图 1-45 所 示 。 程 序 运行 参数 列表 中 传人 的 参数 “Scala Spark Hadoop Java” 


y A 
依次 打印 输出 。 
<terminated> HelloScala$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe | 
Scala 
Spark 
Hadoop 


Java 


图 1-45 ”运行 结果 


Scala 是 一 门 函数 式 编程 风格 的 语言 ， 在 Scala 中 大 量 使 用 了 val 变量 的 定义 ,在 Scala 
开发 中 尽量 减少 var 变量 的 使 用 。 在 表达 式 没有 副作用 的 情况 下 ， 可 以 使 用 表达 式 代替 变量 
名 ， 代 码 更 加 简洁 、 清 楚 ， 因 此 有 利于 程序 的 开发 测试 。 


函数 的 定义 、 流 程控 制 、 异 常 处 理 


1. 函数 格式 
Scala 函数 定义 的 格式 如 下 : 


def 函数 名 称 (参数 列表 ) :函数 返回 值 类 型 = | 函数 体 | 。 


其 中 ， 参 数列 表 的 格式 为 逗号 分 隔 的 参数 声明 ， 声 明 格 式 为 : 参数 名 称 : 参数 类 型 。 参 
数列 表 也 可 以 为 空 。 

函数 的 定义 以 def 开始 ，def 是 Scala 语言 中 的 关键 字 ， 定 义 一 个 函数 的 名 字 ， 示 例 中 本 
数 名 使 用 looper; 然后 使 用 O 包含 函数 的 参数 列表 ， 以 下 的 looper 函数 中 包括 两 个 参数 x 
和 y， 类 型 为 长 整 型 ( :Long) ， 参 数 之 间 用 逗号 分 隔 ; 然后 是 函数 的 返回 值 类 型 ， 也 是 长 整 


Long ) ; 


1 
2 
3 
4 
5. 
6 
7 
8 
9 
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型 (: 函数 返回 结果 类 型 之 后 使 用 等 号 和 一 对 花 括号 表示 函数 体 ， 在 Scala 交互 式 命 
令 行 中 输入 looper 的 函数 定义 ， 可 以 看 出 looper 的 函数 返回 结果 为 Long。 如 例 1-7 所 示 。 
【 例 1-7】 Scala looper KZJ EX. 


scala > def loope 


| 


r(x :Long, y :Long) :Long = | // 定 义 looper KXK, x,y 为 Long 型 参数 
wae aR 
var b=y 
while(a ! = 0){ while 循环 遍历 
val temp =a 
a=b%a 
b = temp 


looper: (x;Long, y; Long) Long 


scala > 


如 果 函 数 定义 中 没有 返回 值 ， 可 以 显 性 地 定义 函数 返回 结果 类 型 为 Unit， 相 当 于 返回 一 


3. 


defunitTest(x :Long, y :Long) ;Unit = | 


println("The un 


| 


itTest result is null" ) 


Unit 也 可 以 省 写 ， 表 示 没 有 显 性 指定 返回 值 类 型 。 在 Scala 交互 式 命令 行 中 输入 函数 定 
义 ， 可 以 看 出 即使 没有 在 函数 定义 中 明确 定义 返回 结果 的 类 型 ， 但 编 a 别 unitTest 的 返 


回 类 型 仍 为 Unit。 如 例 1 


一 8 所 示 。 


【 例 1-8) Scala 函数 返回 值 unit 省 写 的 例子 。 


1 
2 
3 
4. 
5 
6 


scala > defunitTest(x :Long, y :Long) = | 


| printm("The unitTest result is null" ) 


| } 


unitTest; (x;Long, y; Long) Unit /返回 Unit 空 值 


scala > 


Scala "Pim AA IN Gis MITEL PR LZR RS HY AY) ESC, R BV RŽ, e BRA 
型 需 明 确 在 函数 中 定义 。 因 此 在 Scala 中 不 管 函 数 有 无 返回 结果 都 明确 定义 返回 结果 类 型 ， 


无 返回 结 


就 定义 为 Unit。 


2. 函数 的 调用 
All Java 方法 中 返回 值 使 用 不 太一 样 ， 在 Scala 中 无 须 使 用 return 等 关键 字 ，Scala 函数 体 
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中 最 后 一 行 的 值 就 是 整个 函数 的 返回 值 。 


1 def looper(x :Long, y :Long) :Long= | 

2 var a =x 

3 var b =y > 
4 while(a != 0) { 

5); val temp =a 

6 a=b%a 

7 b = temp 

8 | 

9 


b // 是 looper 函数 的 返回 值 
10. } 


函数 定义 好 以 后 ， 就 可 以 通过 函数 名 来 调用 : 


1. def main(args:Array[ String] ) = | 
2 println( looper( 100 ,298 ) ) 
3. } 
和 

之 前 在 Scala 交互 式 命令 行 定义 了 looper 函数 ， 也 可 以 在 Scala 命令 行 中 通过 函数 名 
looper 及 输入 两 个 参数 (100, 298) 来 调用 函数 ， 显 示 函 数 的 结果 为 2， 返 回 结果 类 型 为 
Long。 


1. scala > looper(100 ,298 ) 
2. res9:Long=2 


MERI 流程 控制 (if、while、for) 3 


1. 证 语句 

让 条 件 语句 用 于 在 程序 执行 中 ， 如 果 在 某 个 条 件 成 立 的 情况 下 执行 某 段 语 句 ， 而 在 另外 
一 种 情况 下 执行 男 外 的 语句 。 关 键 字 if 之 后 是 作为 条 件 的 布尔 表达 式 ， 如 果 布 尔 表达 式 的 
返回 结果 为 tue， 则 执行 其 后 的 语句 序列 ;如果 布尔 表达 式 为 false， 则 不 执行 让 条 件 之 后 的 
语句 o 


让 语法 如 下 : 


if( 布尔 表达 式 ) | 
语句 序列 

| else} 
语句 序列 
| 
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如 例 1-9 中 示例 代码 定义 了 一 个 var ZE file, file 默认 赋值 scala. txt。 定 义 一 个 if KIA 
式 ， 判断 main 传 信 的 参数 列表 是 否 为 空 ， 如 果 为 空 参数 ， 则 使 用 之 前 定义 的 file 变量 值 
Scala. txt; 如 果 传 人 参数 不 为 空 ， 则 fle 赋值 传人 的 参数 。 

【 例 1-9】 Scala 让 语句 示例 。 


package com. dt. scala. hello 

import scala. io. Source 

objectScalaBasics | 

def main( args: Array[ String] ) | 
var file = "scala. txt" //7E X var 变量 file 
if (! args. isEmpty) file = args(0) //if IATL, UM args 不 为 空 , 则 将 arg(0) WME file 
println( file ) 


NSPS es A ge St a 


| 
运行 结果 如 图 1-46 所 示 。 程 序 判断 ares 参数 是 空 值 ， 因 此 打印 输出 的 file 的 值 Scala. txt, 


[#2 Problems 4) Tasks E Console X 


<terminated> ScalaBasics$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 
scala.txt 


1-46 运行 结果 
选择 Run as 一 Run Configurations 命令 ， 弹 出 Run Configurations 的 配置 对 话 框 ， 在 Argu- 
ments 选项 卡 的 Program arguments 列表 框 中 输入 参数 Spark. tar. gz， 如 图 1-47 所 示 。 
Dntine i i i = _ << — = 


Create, manage, and run configurations © 


[ceaxlex- | Name: HelloScala$ 


type filter text © Main|m- Arguments 、 EÀ JRE| “> Classpath| B27 Source | IMB Environment| [=] Common| 
a 


FunctionOps$ (1) a 
FunctionOps$ (2) 
FunctionOps$ (3) 

HelloOOP$ ss 
HelloScala$ [Variables..] 
higher_order_functions$ 

List_Interal$ VM arguments: 

ListBuffer_ListArray Queue 
ObjecOps$ 

OOPInScala$ 


| 
OverrideOperations$ | 


PartialAppliedFuntion$ 


Program arguments: 


Spark.tar.gd| A 


SAMS Working directory: | 
ScalaBasics$ 司 © Default: ${workspace_loc:ScalalnAction} | | 
Test$ © Other: | 

TupleOps$ | 
UseTrait$ Workspace... File System... | | Variables... 中 
ila Interpreter z Er 


Filter matched 36 of 37 items Apply 
@ 


PS 


1-47 ”传人 参数 
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单 击 Run (运行 ) 按钮 ,由 于 main A fe A fy B RW Spark. tar. ez, PW if (! 
args. isEmpty) 为 真 ， 则 file 赋值 传 入 的 参数 Spark. tar. gz， 此 时 打印 的 file 结果 是 
Spark. tar. gz ， 运 行 结果 如 图 1-48 所 示 。 


[£2 Problems | Tasks EJ Console 3 S 


<terminated> ScalaBasics$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 
Spark.tar.gz 


图 1-48 运行 结果 


去 掉 例 1-9 中 var file =" Scala. txt" PI if(! args. isEmpty) file = args(0) 两 行 语句 ， 用 val 
变量 重新 定义 fle 变量 ， 如 例 1-10 Bray. 
【 例 1-10) Scala 站 语句 示例 : 使 用 val 变量 改写 。 


Co EN ee SS A 


| 


package com. dt. scala. hello 

import scala. io. Source 

objectScalaBasics | 

def main( args; Array[ String] ) | 
val file = if(! args. isEmpty) args(0) else "scala. xml" /定义 val 变量 file 
println (file ) 


| 


运行 结果 如 图 1-49 Pras. file 赋值 传 入 的 参数 Spark. tar. gz, FT EN AY file 结果 是 


Spark. tar. gz, 
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<terminated> ScalaBasics$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 
Spark.tar.gz 


网 
= 
| 
ss 
Ne} 
in 
Q 
AN 
oH 
No 
no 


使 代码 更 简洁 的 方法 是 将 if( |! args. isEmpty) args (0) else "Spark. xml" 整个 让 表达 式 作为 
参数 传 给 println 函数 ， 一 行 Scala 语句 就 实现 file 的 赋值 ， 打 印 输出 file 变量 的 值 。 如 例 1-11 


所 示 。 


【 例 1-11】 Scala if 语句 示例 : 继续 改写 。 


Bar AS EA eek AL A 


package com. dt. scala. hello 
import scala. io. Source 
objectScalaBasics | 
def main( args: Array| String |) = | 
println(if(! args. isEmpty) args(0) else "Spark. xml") /直接 打印 输出 让 表达 式 的 结 
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运行 结果 如 图 1-50 所 示 。 


园 Console 52 


<terminated> ScalaBasics$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe ( 
Spark.tar.gz 


图 1-50 运行 结果 


2. while 循环 语句 
while 循环 语句 为 条 件 判断 语句 ， 是 指 利用 一 个 条 件 来 控制 是 否 要 继续 反复 执行 循环 体 
中 的 语句 。 语 法 如 下 : 


while (条 件 表达 式 ) 
| 
执行 语句 
} 
当 条 件 表 达 式 的 返回 值 为 真 时 ， 则 执行 |} 循环 体 中 的 语句 序列 ， 然 后 重新 判断 条 件 表 
达 式 的 返回 值 ， 如 果 条 件 表达 式 的 返回 结果 为 假 ， 退 出 while 循环 ， 循 环 结束 。 定 义 looper 
PRA, looper 也 数 里 面包 括 一 个 while 循环 语句 。 如 例 1-12 所 示 。 
【 例 1-12】 Scala while 语句 示例 。 


1. package com. dt. scala. hello 

2.  objectScalaBasics | 

3 def looper(x;Long, y :Long) :Long = | // 定 义 looper 函数 
4 var a=x // 将 参数 x 的 值 复制 给 a 

5. varb =y // 将 参数 y 的 值 复制 给 b 
6 

7 

8 

9 


while(a ! = 0)| // 如 果 a 不 为 0 ,while 循环 遍历 ;如 果 a 为 0 就 退出 循环 
val temp =a // 将 a 的 值 赋值 给 临时 变量 temp 

a=b % a //b 对 a 去 余 ,将 取 余 结果 赋值 给 a(% 为 取 余 数 ,如 7%4=3 ) 
b =temp /将 临时 变量 temp 赋值 给 b 


ll. b // 循 环 结束 以 后 ,b 作为 looper 函数 的 返回 值 返回 
1D, 

13. def main( args; Array[ String] ) = | 

14. println(looper( 100, 298 ) ) // 调 用 looper 函数 


运行 结果 如 图 1-51 所 示 。 调 用 looper (100, 298) iM, Art while 语句 循环 遍历 后 ， 
计算 结果 值 为 2。 
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<terminated> ScalaBasics$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe | 
2 


Al 1-51 looper 运行 结 
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looper 函数 其 实 是 计算 两 个 参数 的 最 大 公约 数 ， 最 大 公约 数 指 某 几 个 整数 共有 因子 中 最 大 
的 一 个 。 如 12 和 30 的 公约 数 有 : 1、2、3、6， 其 中 6 就 是 12 和 30 的 最 大 公约 数 。looper K 
数 的 计算 过 程 ， 可 以 在 代码 中 加 几 条 打印 语句 ， 更 加 清楚 地 展示 整个 循环 过 程 。 如 例 1-13 


所 示 。 S 


[B] 1-13] Scala looper KAHIJI A WHE , 


1. package com. dt. scala. hello 

2. object Scala Basics | 

3. def looper(x :Long, y :Long) :Long= | 

4 var a=x 

5 var b=y 

6 println(" begin, ais" +a) /打印 a 的 值 

7 println(" begin, bis" +b) /打印 b 的 值 

8 while(a ! = 0)| 

9 val temp =a 

10. a=b%a 

11. println( "in the while, a is " +a) /打印 while 循环 中 a 的 值 
12. b = temp 

13. println("in the while ,b is " +b) /打印 while 循环 中 b 的 值 
14. | 

15. b 

16. | 


17. def main( args: Array[ String = | 
18. println( looper( 100 ,298 ) ) // 调 用 looper 函数 
19. | 


运行 结果 如 图 1-52 所 示 。 在 looper 函数 代码 串 加 入 日 志 打 印 语句 ， 动 态 显 示 while 语句 的 执 
行 过 程 ， 计 算出 结果 值 为 2。 
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<terminated> ScalaBasics$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe | 
begin, a is 100 

begin, b is 298 

in the while, a is 98 

in the while ,b is 100 

in the while, a is 2| 

in the while ,b is 98 

in the while, a is @ 

in the while ,b is 2 

2 


图 1-52 looper 函数 运行 结果 


从 looper 函数 的 运行 结果 中 可 以 非常 清楚 地 看 出 ， 当 while 语句 执行 到 a 等 于 0 时 ， 循 
HAR, ERF b 的 值 为 2， 将 b 的 值 作为 整个 looper 函数 的 返回 值 返回 给 println 函数 打印 
出 来 。 

while 循环 有 时 也 可 以 使 用 递归 也 数 来 实现 ， 最 大 公约 数 的 例子 中 对 looper 函数 使 用 递 
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归 调 用 ， 这 里 递归 无 须 定 义 var 变量 和 temp 临时 变量 ， 是 Scala 语言 函数 式 编 程 风 格 的 体 
现 ， 相 对 于 指令 式 编程 风格 ， 递 归 代 码 简洁 、 易 懂 。 

looper 递归 函数 如 参数 y 的 值 等 于 0， 就 返回 函数 结果 x; 否则 就 递归 调用 y 和 x 取 余 y 
的 计算 值 来 递归 计算 。 计 算出 的 结果 为 2。 如 例 1-14 所 示 。 

[B] 1-14] Scala looper 函数 的 递归 实现 示例 。 


package com. dt. scala. hello 
objectScalaBasics | 

def looper(x;Long,y;Long) ; Long = | /定义 looper 函数 

if(y==0) x else looper( y,x % y )// 递 归 调 用 looper eh RC 

| 

def main(args: Array| String |) = | 

println ( looper( 100 ,298 ) ) 
| 
| 


Roe cal ene SA! hrs Eke es 


运行 结果 如 图 1-53 所 示 。 


© Console 5 


<terminated= ScalaBasics$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 
2 


图 1-53 looper 递归 实现 


3. do...while 循环 语句 

do...while 循环 语句 和 while 语句 类 似 ， 两 者 的 区 别 是 while 语句 先 判断 条 件 是 否 成 立 ， 
再 执行 循环 体 ; 而 do...while 循环 语句 先 执行 一 次 循环 语句 ， 再 判断 条 件 是 否 成 立 ， 这 样 
do...while 循环 语句 中 的 语句 序列 至 少 要 执行 一 次 。 

语法 如 下 : 

do | 

语句 序列 

| 

While (条 件 表达 式 ) 

fi) 1-15 中 定义 了 一 个 do...While 函数 ，do… While 函数 先 定义 line 变量 ， 用 于 接收 在 
Console 视图 中 输入 的 字符 串 。 然 后 执行 do 循环 体 ，line 变量 等 于 输入 的 一 行 字符 串 ， 使 用 
printhn 打印 输出 输入 字符 串 ， 当 输入 字符 串 不 为 空 时 ， 就 一 直 执 行 循环 体 打印 输出 字符 串 ，; 
如 果 不 再 输入 字符 串 ， 在 Console 视图 中 直接 按 Enter 键 ， 退 出 循环 。 

【 例 1-15] Scala doWhile 示例 。 


1. package com. dt. scala. hello 
2. import scala. io. Source 


3.  objectScalaBasics | 
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4. defdoWhile( ) | /定义 do...while 循环 

5 var line =" 

6. do | 

7 line = readLine( ) // 读 入 一 行 数 据 S 
8 println(" Read;" + line) 

9. | while(line ! ="") // 读 入 为 空 ,结束 循环 
10. } 

11. 

12. def main( args; Array[ String] ) :Unit = | 

13. doWhile 

14 | 

IS, | 


运行 结果 如 图 1-54 所 示 。 


园 Console 2 
ScalaBasics$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 


Read: I love Scala 
Read: I love Spark 
图 1-54 do...While 函数 运行 结果 

4. for 循环 语句 
for 循环 语句 可 以 重复 执行 某 条 语句 序列 ， 直 到 某 个 条 件 得 到 满足 ， 才 退出 循环 。 
for 语法 如 下 : 
for (表达 式 ; 表达 式 ; RAR) 
| 语句 序列 
| 
for 循环 语句 示例 如 例 1-16 所 示 ， 其 中 将 1 到 10 依次 赋值 给 变量 i, 循环 执行 10 次 ， 
每 次 打印 输出 i 的 值 。 
【 例 1-16】 Scala for 循环 语句 示例 。 


package com. dt. scala. hello 
import scala. io. Source 
objectScalaBasics | 
def main( args: Array[ String | ) :Unit = | 
for(i<-1 to 10 ) | // 定 义 for 循环 语句 ,遍历 10 次 


println( " Number is:" +i) 


| 
| 


运行 结果 如 图 1-55 所 示 。 


SA rn os 
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<terminated> ScalaBasics$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 
Number is : 
Number is : 
Number is : 
Number is : 
Number is : 
Number is : 
Number is : 
Number is : 
Number is : 
Number is : 


rPwoUON OU PWN 
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K 1-55 for 循环 语句 
条 件 表达 式 中 ; <1 to 10, HP to 作为 中 级 运 算 符 ， 也 可 以 写成 i<-1.to(10)， 这 里 
.to(10) 是 作为 数字 1 的 方法 来 调用 的 。 


1. for(i<-1.to(10)) | 
2 println( " Number is:" +i) 
3, | 


fil 1-17 的 代码 用 于 读 取 根 目 录 中 所 有 文件 及 目录 ,将 目录 文件 名 称 列表 赋值 给 files 变 
量 ， 然 后 使 用 for HIME files 依次 读 入 到 file 中 ， 打 印 输出 file 的 值 。 
【 例 1-17】 Scala for 循环 语句 读 取 根 目录 的 所 有 文件 及 目录 示例 。 


package com. dt. scala. hello 
import scala. io. Source 
objectScalaBasics | 
def main( args; Array[ String] ) | 
val files = (new java. io. File("." ) ). listFiles( )// 读 取 根 目录 下 的 文件 及 目录 
for( file <- files) | //for 循环 遍历 输出 
println (file ) 


NO oN tO tae 


运行 结果 如 图 1-56 所 示 。 


Ë Tasks| Æ Console % 


<terminated> ScalaBasics$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 
-\.cache-main 

-\.classpath 

-\.project 

-\.settings 

. \.worksheet 

-\bin 

-\scalaFile.txt 

«\src 


1-56 读 取 根 目 录 的 所 有 文件 及 目录 


Scala 语言 的 for 循环 表达 式 比 Java 语言 中 for 循环 表达 式 的 功能 更 丰富 。Scala 中 的 for 
循环 表达 式 具 有 更 高 级 的 形态 ， 如 以 下 代码 在 Scala 中 定义 一 个 生成 器 (for...yield) ，yield 
方法 体 中 的 语句 在 for 循环 每 次 迭代 的 时 候 运 行 ， 并 且 返 回 一 个 元 组 值 ， 包 含 3 个 元 素 
(num,num *10,num * 100), yield 最 终 返 回 结 果 foryieldResult 集合 的 类 型 List 与 被 遍历 的 元 
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素 nums = List(1,2,3 ,4) 集 合 类 型 List 是 一 致 的 。 


1. packagecom. dt. spark 
2.  objectyieldtest | 
3 def main( args; Array[ String] ) | > 
4 val nums = List( 1,2,3,4) 
5. var i=l 
6 val foryieldResult = for( num < -nums) yield ”| /执行 yield 语句 体 
7 println(" 35" +i+ "次 for 遍历 ,yield 返回 记录 值 " + (num,num * 10,num * 100) ) 
8 icit] 
9 (num,num * 10,num * 100) //yield 返回 一 个 元 组 值 ,包含 三 个 元 素 
10. | 
11. println(" foryieldResult 的 值 : " +foryieldResult) 人 打印 输出 生成 器 (for. . . yield) 结果 
12. } 
Bef 
代码 运行 结果 如 下 : 
1. 第 1 次 for 遍历 ,yield 返回 记录 值 (1,10,100) 
2. 第 2 次 for 遍历 ,yield 返回 记录 值 (2,20,200) 
3. ”第 3 次 for dH, yield 返回 记录 值 (3,30,300) 
4. 第 4 次 for 遍历 ,yield 返回 记录 值 (4,40,400) 
5. foryieldResult FEL; List((1,10,100) ,(2,20,200) ,(3,30,300) ,(4,40,400) ) 


在 for 表达 式 中 定义 生成 器 、 定 义 变量 、 定 义 过 滤器 ， 较 复杂 的 用 例如 例 -18 所 示 。 

e 生成 需 为 for . . yield, for 循环 迭代 会 将 persons 列表 中 的 所 有 元 素 进 行 遍历 ，yield 会 
产生 一 个 值 (person. name, child. name ) ， 这 个 值 被 循环 记录 下 来 ， 当 循环 结束 后 ， 
会 返回 所 有 yield 的 值 (person. name，child. name) 组 成 的 集合 ; 返回 集合 的 类 型 与 
被 遍历 的 集合 类 型 是 一 致 的 。 

e 定义 为 name = person. name， 相 当 于 起 个 别名 ， 可 以 在 后 面 的 过 滤器 和 条 件 中 进行 
使 用 。 

o if 语 句 是 一 个 过 滤器 ， 将 遍历 的 列表 中 的 符合 要 求 的 元 素 进 行 过 滤 。 

【 例 1-18】 Scala for 语句 生成 右 、 定 义 和 过 滤 响 示例 。 


package com. dt. scala. hello 
objectScalaBasics | 
case class Person( name: String,isMale: Boolean, children; Person * ) 


def main( args; Array| String |) = | 


val rocky = Person ( " Rocky" , true) 


val vivian = Person ( " Vivian" , false , lauren, rocky ) 


1 
2 
3 
4 
5 val lauren = Person ( " Lauren" ,false) 
6 
i 
8 


val persons = List (lauren, rocky , vivian) 
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9. valforResult = for | person <- persons ;name = person. name;if | person. isMale;child <- 
10. person. children} //person <- persons 是 一 个 生成 器 ,定义 name; 让 语句 是 一 个 过 滤器 

11. yield( person. name, child. name) 

12. println ( forResult ) 

13. | 

14. | 


运行 结果 如 图 1-57 所 示 。 结 果 是 找 出 母亲 和 母亲 的 孩子 。 从 lauren, rocky, Vivian 找 
出 女士 Vivian， 而 且 返 回 Vivian 和 孩子 的 集合 lauren rocky, 
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<terminated> ScalaBasics$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 
List((Vivian,Lauren), (Vivian,Rocky)) 


图 1-57 7 CAR ae a SOLE tt 


fi) 1-18 首先 定义 了 一 个 case class 类 : 人 ， 包 括 姓名、 性 别 、 孩 子 等 多 个 参数 ， 然 后 定 
义 了 两 位 女士 lauren vivian (vivian 有 两 个 child， 分 别 为 lauren 及 rocky) ， 一 位 男士 rocky。 
定义 了 一 个 persons 列表 list， 包 括 lauren, rocky, vivian, 

重点 看 一 下 for RAR: 

1) 将 persons 列表 中 的 元 素 依次 赋值 给 person， 循 环 执行 。 

2) 定义 一 个 变量 name， 值 为 person. name。 

3) 实现 一 个 过 滤 如 |! person. isMale， 过 滤 掉 person 中 的 男士 。 

4) 对 过 滤 后 的 元 素 ， 将 person. children 的 值 赋值 给 变量 child, 

5) 将 结果 保存 于 生成 器 yield (person. name, child. name) 并 赋值 给 forResult， 然 后 利 
用 println 函数 打印 输出 结果 : List( (Vivian ,Lauren) , ( Vivian, Rocky) ) 。 


攻 异常 处 理 


程序 运行 中 可 能 发 生 各 种 问题 ， 或 者 出 现 超出 了 可 控 范 围 的 环境 因素 ， 例 如 用 户 使 用 的 
是 损坏 的 数据 、 打 开 一 个 不 存在 的 文件 、 空 指针 、 数 组 溢出 等 。 在 Scala 中 运行 这 种 程序 时 
可 能 出 现 的 一 些 错误 称 为 异常 。 异 常 是 一 个 在 程序 执行 期 间 发 生 的 事件 ， 中 断 了 正在 执行 的 
程序 的 正常 指令 流 。 

1. try - catch 捕获 异常 

例 1-19 定义 了 一 个 变量 wn， 赋值 99， 使 用 关键 字 try - catch 的 方式 捕获 异常 。 如 果 闻 能 
被 2 整除 ， 那么 n 是 一 个 偶数 ， 程 序 正常 运行 结束 ; 如 果 不 能 被 2 整除 ， 即 n 是 一 个 奇 
数 ， 那 么 就 使 用 throw new RuntimeException 抛 出 一 个 异常 RuntimeException (" N must be 
event" ) 。 与 Java 不 同 的 是 ，Scala 使 用 case 进行 模式 匹配 来 捕获 异常 。 在 catch 模块 中 ， 
case 语句 对 抛 出 的 异常 进行 匹配 ， 打 印 输出 " The exception is;" + e. getMessage ( ) ， 其 中 
e. getMessage( ) 是 之 前 定义 的 描述 词 N must be event。 如 例 1-19 所 示 。 

【 例 1-19】 try- catch 捕获 异常 示例 。 
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1. package com. dt. scala. hello 

2. import scala. io. Source 

3.  objectScalaBasics | 

4. def main( args; Array[ String] ) | © 
5. val n =99 

6. try | 人 定义 try 语句 捕获 异常 

Th val half = if( n % 2 ==0) n /2 else throw 

8. new RuntimeException( "N must be event" ) 

9, | catch | /匹配 各 种 异常 事件 进行 处 理 

10. case e: Exception => println( " The exception is:" +e. getMessage( ) ) 
11. | finally | 

12. } 

Bo i 

14. | 


运行 结果 如 图 1-58 所 示 。 


© Console & 
<terminated> ScalaBasics$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 
The exception is :N must be event 


图 1-58 try- catch 捕获 异常 


2. finally FA 

如 果 某 些 代码 无 论 如 何 中 止 都 需要 执行 的 话 ， 可 以 将 执行 语句 放 在 finally FAJE, 

1) 首先 打开 资源 ， 如 打开 文件 、 连 接 数据 库 、 建 立 网 络 socket 套 接 字 。 

2) 然后 通过 try 代码 块 使 用 资源 ， 对 资源 进行 操作 。 如 文件 的 读 写 操作 ， 以 及 数据 库 
表 记 录 的 增 、 删 、 修 改 、 查 询 ; socket 数据 流 的 发 送 接收 等 ， 在 资源 的 使 用 过 程 中 ， 如 发 生 
异常 ， 使 用 try - catch 的 方式 捕获 异常 。 

3) 最 后 ， 在 finally 子 句 关闭 资源 。 如 关闭 文件 、 关 闭 数据 库 的 连接 、 关 闭 socket 的 网 
络 接口 资源 等 。 

finally 子 句 如 例 1-20 所 示 。 

【 例 1-20】finally 子 句 示 例 。 


package com. dt. scala. hello 
import scala. io. Source 
objectScalaBasics | 
def main( args; Array| String |) = | 
val file = Source. fromFile("" g; \test. txt" ) // 读 入 文件 


try | 
// 使 用 文件 
println( " the file is ok" ) 


NOE ON A a eS 


| catch | 


语言 基础 与 开发 实战 


10. case e; Exception => println( " The exception is;" + e. getMessage( ) ) 
11. } finally | 

12. file. close( ) // 关 闭 文 件 

13. | 

14. | 

15. } 


运行 结果 如 图 1-59 所 示 。try - catch — finally 运行 中 打印 输出 一 行 日 志 。 


[#2 Problems | Tasks | Œ Console 3 
<terminated> ScalaBasics$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 
the file is ok 
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Tuple, Array, Map 与 文件 操作 


S| Tupe 元 组 


元 组 (Tuple) 是 不 同类 型 的 值 的 聚集 ， 元 组 的 值 将 单个 的 值 包含 在 圆 括号 中 来 构成 ， 
元 组 可 以 包含 不 同类 型 的 元 素 。 
定义 一 个 元 组 : 


val triple = (100," Scala" ," Spark" ) 


1) 元 组 中 可 以 包含 不 同类 型 的 元 素 ， 在 示例 代码 中 , 将 鼠标 放 在 triple 上 面 ，Scala 
IDE 能 自动 推断 出 元 组 triple 里 面 3 个 元 素 的 类 型 分 别 为 nt String, String, 

2) 元 组 实例 化 以 后 ， 和 Array 数组 不 同 ，Array 数组 的 索引 从 0 开始 ， 而 元 组 的 索引 从 
1 开始 。 

3) 调用 元 组 triple 元 素 的 方法 _1 、_2、_3 来 分 别 调用 每 一 个 元 素 ， 输 出 到 printi 函数 
中 打印 。 如 例 1-21 所 示 。 

【 例 1-21】Tuple 元 组 计算 示例 。 


1. package com. dt. scala. hello 

2. objectTupleOps | 

3h, def main( args; Array[ String] ) : Unit = | 
4. val triple = ( 100," Scala" , "Spark" ) 

5 println( triple. _1) /打印 第 一 个 元 素 
6 println( triple. 2) /打印 第 二 个 元 素 
7 println( triple. 3) /打印 第 三 个 元 素 
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了 
9. | 


运行 结果 如 图 1-60 所 示 。 


园 console & 
<terminated> TupleOps$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe | 
100 
Scala 
Spark 


图 1-60 Tuple 元 组 运行 结果 


© 


元 组 中 元 素 可 以 使 用 模式 匹配 来 获取 。 在 Scala 交互 式 命令 行 ， 定义 一 个 元 组 ， 进 行 相 


关 的 操作 ， 如 例 1-22 所 示 。 
【 例 1-22】 Tuple 元 组 赋值 示例 。 


scala> val triple=(100,"Scala" ," Spark" ) 
triple; (Int, String String) = ( 100 , Scala , Spark ) 


scala > val( one ,two ,three) = triple 
one; Int = 100 
two : String = Scala 


three ; String = Spark 


O00 :Oe A ni barh EO 


triple 元 组 的 每 一 个 元 素 对 应 起 来 
9. scala > print( one) 
10. 100 
11. scala > print( two) 
12. Scala 
13. scala > print( three) 
14. Spark 
15. //printIn 查看 每 一 个 变量 的 值 


17. scala > val(one,two，) = triple 
18. one;Int = 100 
19. two:String = Scala 


20. scala > print( one) 


// 定 义 (one,two,three) 变 量 来 获取 triple 元 组 的 每 一 个 元 素 ,模式 匹配 将 (one , two , three) 与 


21. 100 
22，/ 如 果 元 组 中 的 元 素 并 不 是 每 一 个 元 素 都 需要 ,那么 可 以 在 不 需 的 位 置 上 使 用 _( 占 位 符 ) 
23; 


24. scala > val one,two,_ = triple 
25. one; (Int, String, String) = (100 ,Scala, Spark ) 
26. two: (Int, String, String) = (100 ,Scala, Spark) 
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27.  _:(Int,String,String) = ( 100 , Scala , Spark ) 


29. scala > print( one) 

30. (100 ,Scala, Spark) 

31. scala > print( two) 

32. (100,Scala, Spark) 

33. scala > 

34. // 如 果 将 (one,two,，) 变 量 外 面 的 圆 括号 去 掉 ,one,two， 将 会 定义 成 为 相互 独立 的 几 个 变 
量 , 分 别 将 triple 元 组 赋值 给 每 一 个 变量 


Array 数组 是 


数组 是 一 种 最 为 常见 的 数据 结构 ， 数 组 中 的 元 素 都 是 相同 类 型 的 ， 用 一 个 标识 符 封装 在 
一 起 的 基本 类 型 数据 序列 或 对 象 序列 。 可 以 用 一 个 统一 的 数组 名 和 下 标 来 唯一 确定 数组 中 的 
元 素 。 

数组 的 相关 操作 在 ScalalnAction. sc 中 进行 ， 在 ScalalnAction. sc 中 输入 内 容 ， 在 Work- 
Sheet 右 侧 会 显示 出 相应 的 结 

1. 定 长 数组 、 可 变数 组 、 数 组 转换 

定 长 数组 : 声明 一 个 数组 ， 数 组 为 固定 长 度 ， 如 例 1-23 所 示 。 

【 例 1-23】 固定 长 度 的 数组 操作 示例 。 


1. val nums = new Array[ Int | (10) //10 个 Int 类 型 的 数组 ,所 有 的 元 素 初 始 化 为 0 
2. val a=new Array| String] (10) //10 个 String 类 型 的 数组 ,所 有 的 元 素 初始 化 为 null 
3. val s= Array("Hello" ," World")  //4R EEA 2 的 String 数组 ,类 型 是 编译 右 推 断 出 来 的 
4. s(0) =" Goodbye" // 给 数组 s(0) WEL Goodbye 

执行 结果 如 下 : 


1. valnums = new Array| Int | (10) //>nums :Array[ Int] = Array(0,0,0,0,0,0,0,0,0,0) 
2. val a=new Array| String | (10) //>a ;Array[ String} = Array(null, null, null ,null,null, 
null , null, null , null , null) 
val s = Array( " Hello" ," World") //>s :Array[ String] = Array ( Hello, World) 
4. s(0) =" Goodbye" 
s // > res0: Array| String | = Array ( Goodbye , World) 


变 长 数组 : 数组 长 度 按 需 要 变化 ，Scala 中 的 数据 结构 为 ArrayBuffer， 需 引入 Array- 
Buffer， 如 例 1-24 所 示 。 
【 例 1-24】 变 长 数组 操作 示例 。 


1. import Scala. collection. mutable. ArrayBuffer /引入 ArrayBuffer 数组 缓存 
2. val b = ArrayBuffer[ Int | () // 新 建 一 个 长 度 可 变 的 数组 b 
3. b+=1 // 用 += 在 数组 b 末尾 加 1 
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5 // 用 += 在 数组 b 末尾 继续 加 多 个 元 系 
b++= Array(8 ,13 ,21) 上 /用 += 在 数组 b 未 尾 继续 加 多 个 元 素 
// 查 看 数组 b 的 值 此 时 为 AmayBuffer(1,1,2,3,5,8,13 ,21) 
执行 结果 如 下 : © 
1. import scala. collection. mutable. ArrayBuffer 
2. val b= ArrayBuffer[ Int] () // >b:;scala. collection. mutable. ArrayBuffer[ Int | = ArrayBuffer( ) 
3. b+=1 // >resl :com. dt. scala. hello. ScalaInAction. b. type = ArrayBuffer(1 ) 
4. b+=(1,2,3,5) // >res2:com. dt. scala. hello. ScalalnAction. b. type = ArrayBuffer(1,1,2,3,5) 
5. b++=Array(8,13,21) // >res3:com. dt. scala. hello. ScalalnAction. b. type = ArrayBuffer(1,1, 
2D Desig 2D 
6. b//>res4:scala. collection. mutable. ArrayBuffer[ Int | = ArrayBuffer(1,1,2,3,5,8,13 ,21) 


可 变 长 数组 操作 : 对 可 变 长 数组 进行 一 些 基 本 操作 ， 如 删除 、 增 加 元 素 。 如 例 1-25 所 示 。 
【 例 1-25】 可 变 长 数组 操作 示例 。 


1. b. trimEnd(5) 

2 /删除 数组 b 末尾 的 5 个 数字 ,查看 数组 b, 结 果 为 ArrayBuffer( 1,1,2) 

3. b. insert(2,6) 

4. b /在 索引 为 2 的 位 置 ( 即 在 1,1 之 后 ) 搬 入 数字 6, 查看 数组 b, 结 果 为 

ArrayBuffer(1,1,6,2) 
5. b.insert(2,7,8,9) 
b // 在 索引 为 2 的 位 置 搬入 三 个 数字 7 .8 .9 ,查看 数组 b ,结果 为 ArrayBuffer(1, 

1,7,8,9,6,2) 

7. b.remove(2) // >res9:Int =7 
// 把 索引 为 2 的 数字 删除 掉 ( 数字 7) ,查看 数组 b ,结果 为 ArrayBuffer(1,1,8,9, 
6,2) 

9. b. remove(2,3) 

10. // 把 索引 为 2 的 之 后 的 3 个 数字 删除 掉 ( 数 字 8.9.6) ,查看 数组 b ,结果 为 
ArrayBuffer( 1,1,2) 

11. b. toArray /数组 转换 :把 可 变数 组 b 转换 为 固定 长 度 的 数组 ,结果 为 Array[ Int] 类 型 
Array(1,1,2) ,b.toArray 值 不 可 以 修改 

12. b // 484 b 为 ArrayBuffer(1,1,2) 

执行 结果 如 下 : 

1. b. trimEnd(5 ) 

2 // > res5 :scala. collection. mutable. ArrayBuffer[ Int] = ArrayBuffer(1,1,2) 

3. b. insert(2,6) 

4. b // > res6 : scala. collection. mutable. ArrayBuffer[ Int] = ArrayBuffer(1 ,1,6 ,2) 

5. b. insert(2,7,8,9 ) 

6. b //>res7:scala. collection. mutable. ArrayBuffer[ Int] = ArrayBuffer(1,1,7,8,9,6,2) 
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b. remove(2) // >res8:Int=7 
b // >ves9 ; scala. collection. mutable. ArrayBuffer[ Int] = ArrayBuffer(1,1,8 ,9 ,6 ,2) 
b. remove(2 ,3) 


b // > res10 :scala. collection. mutable. ArrayBuffer| Int] = ArrayBuffer( 1,1,2) 
b. toArray // >resl1;Array| Int] = Array(1,1,2) 
b // > resl2 :scala. collection. mutable. ArrayBuffer| Int] = ArrayBuffer( 1,1 ,2) 


2. 数组 元 素 计 算 、 求 和 、 排 序 、 元 素 连 接 
数组 的 一 些 进 阶 操作 ， 如 数组 元 素 计 算 RA, HEF, 、 元 素 连 接 。 如 例 1-26 所 示 。 
【 例 1-26】 数 组 的 进 阶 操作 。 


1. val c=Array(2,3,5,7,11) // 定 义 一 个 数组 c, 值 为 Array(2,3,5,7,11) 

2. val result =for(elem <- c) yield 2*elem //for 循环 ,将 数组 c 中 的 元 素 依 次 赋值 给 elem, 
将 elem 的 值 乘 以 2 ,得 到 新 的 数组 result, 值 为 Array(4,6 ,10,14 ,22) 

3. for(elem <-c if elem % 2==0) yield 2 * elem /取得 数组 e 的 偶数 ,并 将 值 乘 以 2 ,计算 
Array(4) 

4. c filter(_% 2==0).map(2 *_) /函数 式 编程 风格 ,将 数组 e 过滤 出 偶数 的 元 素 ,将 元 素 
乘 以 2 ,计算 值 为 Array(4) 

5. Array(1,7,2,9). sum // 数 组 的 元 素 求 和 ,结果 为 19 

6. ArrayBuffer(" Mary" ," had" ," a" "little" ," lamb" ). max //max 方法 取得 可 变数 组 的 最 长 元 素 
little 

7. val d= ArrayBuffer(1,7,2,9) /定义 一 个 可 变数 组 ArrayBuffer(1,7,2,9) 

8. valbSorted = d. sorted // 对 可 变数 组 d 排序 ,结果 为 ArrayBuffer( 1,2,7,9) 

9. val e=Array(1,7,2,9) // 定 义 一 个 定 长 数组 e : Array(1 ,7,2,9) 

10. Scala. util. Sorting. quickSort(e) /排序 

ll. e // 查 看 数组 e, 定 长 数组 排序 的 结果 为 Array(1,2,7,9) 

12. e. mkString(" and ") // 数 组 中 的 元 素 用 and 字符 串 连 接 起 来 ,结果 为 : 1 and 2 and 
7 and 9 

13. e. mkString(" <",","," >") /数组 中 的 元 素 用 逗号 字符 串 连 接 , 而 且 开 头 和 结尾 分 别 用 

尖 括 号 连接 ,结果 为 <1,2,7,9 > 
执行 结果 如 下 : 

1. val c = Array(2,3,5,7,11) //>c :Arayl Int] = Array(2,3,5,7,11) 

2. val result = for( elem <- ¢) yield 2*elem //>result :Array[ Int] = Array(4,6,10,14,22) 

3. for(elem <~c if elem % 2==0) yield 2 * elem // > res13 ; Array[ Int] = Array(4) 

4. cœ. filter(_% 2 ==0).map(2 *_) // >vesl4:Array| Int] = Array(4) 

5.  Array(1,7,2,9).sum // > res15; Int = 19 

6.  ArrayBuffer(" Mary" ," had" ,"a" ," little" ," lamb" ). max 
// > res16 : String = little 

7. val d= ArrayBuffer( 1,7,2,9) 

//>d :scala. collection. mutable. ArrayBuffer[ Int] = ArrayBuffer( 1,7,2,9) 
8. valbSorted = d. sorted 
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// > bSorted :scala. collection. mutable. ArrayBuffer[ Int] = ArrayBuffer( 1,2,7,9) 


9. val e= Array(1,7,2,9) // >e :Array| Int] = Array( 1,7,2,9) 

10. scala. util. Sorting. quickSort( e) 

ll. e // >ves\7;Array| Int] = Array( 1,2,7,9) S 
12. e. mkString(" and " ) // >res18 :String = 1 and 2 and 7 and 9 

13. e. mkString(" <",","," >") // >resl9:String= <1,2,7,9> 


3. 多 维 数组 

多 维 数组 : Scala 的 多 维 数组 类 似 于 java， 多维 数组 是 通过 数组 的 数组 来 实现 的 。 如 例 1-27 
所 示 。 

【 例 1-27】 多 维 数组 操作 示例 。 


1. val matrix = Array. ofDim[ Double](3 ,4) /要 构造 一 个 Array[ Array[ Double | ] 数 组 ， 
可 以 用 ofDim 方法 ,生成 一 个 3 行 4 列 的 数组 
2. matrix(2)(1) =42 // 给 matrix 数组 第 3 行 第 2 列 赋值 和 2 
3 matrix // 查 看 matrix 数组 ,42 的 数值 已 经 更 新 
4. val triangle = new Array[ Array[ Int] ] (10) // > 构造 一 个 Array[ Array[ Int] ] 类 型 的 数组 
5. triangle, B 10 个 元 素 (每 个 元 素 也 是 一 个 数组 ) ,元 素 初 始 化 为 null 
6 
7 


for(i <-O until triangle. length) 


triangle(i) = new Array[ Int] (i +1) // > 设置 数组 triangle 中 的 里 面 每 个 元 素 的 长 度 ， 


第 一 个 数组 元 素 长 度 为 1, 第 二 个 数组 元 素 长 度 为 2,…… 以 此 类 推 ,第 10 个 数组 元 素 长 度 为 
10 
8. triangle // > 查看 多 维 数组 triangle 的 内 容 
执行 结果 如 下 : 


1. val matrix = Array. ofDim[ Double ] (3,4) // > matrix; Array[ Array[ Double | | = Array( Array 
(0. 0,0. 0,0. 0,0. 0) , Array(0.0,0.0,0.0,0.0) , Array(0.0,0.0,0.0,0.0) ) 
matrix(2) (1) =42 
matrix // > res20 : Array| Array[ Double | | 

= Array( Array(0.0,0.0,0.0,0.0) , Array(0.0,0.0,0.0,0.0) , Array(0. 0,42. 0,0. 0,0. 0) ) 
val triangle = new Array[ Array [| Int] ] (10) //> triangle — ; Array[ Array[ Int | ] = Array (null, 
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null , null, null, null, null, null, null , null , null) 

6. for(i <—0 until triangle. length) 

7. triangle(i) =new Array| Int] (i +1) 

8. triangle // >res21:Array| Array[ Int] | = Array( Array(0) , 
Array(0,0) ,Array(0,0,0) , Array(0,0,0,0) ,Array(0,0,0,0,0) , Array(0,0,0,0,0,0) , Array(0, 
0,0,0,0,0,0) , Array(0,0,0,0,0,0,0,0) , Array(0,0,0,0,0,0,0,0,0) , Array(0,0,0,0,0,0, 
0,0,0,0) ) 


文件 操作 


1. 从 本 地 文件 中 读 取 文 本 行 
日 常 操作 中 经 常 需要 读 取 文件 。 示 例 代 码 首先 引用 包 import scala. io. Source ， 在 Win- 
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dows 本 地 目录 中 有 一 个 文件 g: \test. txrt， 文 本 文件 的 内 容 为 “hello，i love Scala i love 
Spark” , Source 是 一 个 object 对 象 ， 直 接 引 用 Source 的 fromFile 方法 ， 打 开 g: \test. txt 文件 ， 
然后 读 取 file 的 每 一 行 ，file. getLines 是 一 个 迭代 器 Linelterator， 依 次 指向 下 一 行 ， 然 后 将 每 
一 行 的 内 容 输出 到 println 进行 打印 ， 最 后 关闭 文件 。 如 例 1-23 所 示 。 

【 例 1-28】 从 本 地 文件 中 读 取 文本 行 示例 。 


1. package com. dt. scala. hello 

2. import scala. io. Source 

3. import java. io. PrintWriter 

4. import java. io. File 

5. object FileOps | 

6. def main( args:Array[ String] ) | 

7 val file = Source. fromFile( "g: \test. txt" ) // 读 取 本 地 文件 

8 for( line <- file. getLines) | println(line) | A/ 打印 输出 文件 内 容 
9 


file. close 


运行 结果 如 图 1-61 所 示 。 


[2] Problems | Tasks 目 Console 3 


<terminated> FileOps$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 
hello,i love scala 
i love spark 


AL 1-61 读 取 本 地 文件 文本 行 


2. 读 取 网 页 文件 

类 似 于 Scala 读 取 本 地 文件 的 操作 ， 读 取 网 页 文件 也 是 用 Source 对 象 。Source 是 一 个 
object 对 象 ， 读 取 网 页 时 候 直接 引用 Source 的 fromURL 方法 ， 在 参数 中 输入 需要 打开 的 网 
页 ， 这 里 输入 Spark 的 官网 网 址 ， 读 取 http://Spark. apache. org/ 的 源 代码 ， 然 后 每 读 取 一 行 
进行 打印 ， 全 部 读 取 完毕 以 后 ， 关 闭 读 取 网 页 文件 。 如 例 1-24 所 示 。 

【 例 1-29】 读 取 网 页 文件 示例 。 


package com. dt. scala. hello 

import scala. io. Source 

import java. io. PrintWriter 

import java. io. File 

object FileOps | 

def main( args: Array[ String] ) | 

val webFile = Source. fromURL("http;//spark. apache. org/" ) // 读 取 网 页 内 容 
webFile. foreach( print) /循环 遍历 打印 输出 


webFile. close 


| 
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运行 结果 如 图 1-62 所 示 。 


区 Problems $) Tasks Console 只 


<terminated> FileOps$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 
<!DOCTYPE html> 


<html lang="en"> 
<head> 
<meta charset="utf-8"> 
<meta http-equiv="X-UA-Compatible" content="IE=edge"> 
<meta name="viewport™ content="width=device-width, initial-scale=1.0"> 


<title> 
Apache Spark&trade; - Lightning-Fast Cluster Computing 


</title> 


Al 1-62 读 取 网 页 文件 


3. 写本 地 文件 

Scala 写 和 人 本 地 文件 ,首先 引入 Java.io 包 ，import Java. io. PrintWriter, import 
Java. io. File。 在 当前 工程 目录 下 ， 新 建 一 个 文件 new PrintWriter(new File("scalafile. txt") ) ， 
通过 for 循环 语句 ， 执 行 100 次 ， 每 次 将 i TAS A ScalaFile. txt 文件 中 ， 全 部 写 人 完成 ， 就 关 
闭 文 件 。 如 例 1-25 所 示 。 

【 例 1-30】 写 本 地 文件 示例 。 


package com. dt. scala. hello 
import scala. io. Source 
import java. io. PrintWriter 
import java. io. File 
objectFileOps | 
def main( args: Array[ String] ) | 
val writer = new PrintWriter( new File("scalaFile. txt" ) ) // 新 建文 件 
for(i <-1 to 100) writer. println(i)// 将 值 写 入 文件 


writer. close( ) 


DE A se 


运行 结果 如 图 1-63 所 示 。 无 输出 ,但 已 生成 本 地 文件 。 


f Problems Ë] Tasks EJ Console % 
<terminated> FileOps$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe | 


Al 1-63 文件 运行 结果 


在 当前 工程 ScalalnAction 下 按 FS 键 刷新 ， 可 以 看 到 ScalalnAction 目录 下 生成 了 scala- 
File. txt 文件 ， 单 击 打 开 scalaFile. txt 文件 ， 可 以 看 到 刚才 已 经 从 1 到 100 5AT 100 个 数字 ， 
文件 写 入 完成 。 如 图 1-64 所 示 。 


语言 基础 与 开发 实战 


IÈ Package Explorer 33 iy 日 scalaFile.txt 23 


sf 


上 
4 © ScalalnAction i 
> @ src 4 

> BA Scala Library container [ 2 5 

> BA JRE System Library Uavasl 
scalaFile.txt 8 

9 


Al 1-64 文件 运行 结果 


1.6.4 


在 Scala 中 使 用 Map 比较 简单 ，Map 映射 是 最 灵活 多 变 的 数据 结构 之 一 ， 映 射 是 键 / 值 
对 偶 的 集合 ，Scala 采用 类 继承 机 制 提供 了 可 变 和 不 可 变 两 种 版 本 的 Map。 可 变 的 Map 在 
scala. collection. mutable 里 ， 不 可 变 的 Map 在 scala. collection. immutable 里 面 。 

1. 不 可 变 Map 

Map 映射 的 相关 操作 在 WorkSheet 中 的 ScalalnAction. sc 中 进行 。 不 可 变 Map 集中 (k,v) 
值 的 操作 ， 如 例 1-31 所 示 。 

【 例 1-31】 不 可 变 Map 集合 示例 。 


1. val map = Map( "book" —> 10," gun" ->18,"ipad" —> 1000) 
// 定 义 了 一 个 不 可 变 map 42 Map( book -> 10, gun -> 18 ,ipad -> 1000) 

2. for((k,v) <-map) yield(k,v *0. 9) 
// 使 用 for 循环 ,依次 对 Map 集中 的 (k,v) 值 进行 操作 。Map 集中 的 键 K 值 保持 不 变 ， 
对 Map 集中 每 一 个 键 对 应 的 V 值 乘 以 0.9 ,计算 出 一 个 新 的 Map 集合 Map( book -> 9.0， 
gun ->16.2,ipad -> 900.0) , V 值 类 型 从 int 类 型 更 新 为 double 类 型 


执行 结果 如 下 : 


1. val map = Map( "book" -> 10," gun" —> 18," ipad" -> 1000) 
//>map :scala. collection. immutable. Map| String, Int] = Map( book -> 10, gun -> 18, 
ipad -> 1000 ) 
2. for((k,v) <-map) yield(k,v *0. 9) 
// > res0 :scala. collection. immutable. Map| String , Double | = Map( book —> 9. 0, gun — 
//\ >16.2,ipad -> 900. 0) 


2. 可 变 Map 

可 变 Map 集 指 的 是 ，Map 中 的 (k,v) 映射 对 可 以 进行 修改 、 增 加 或 删除 等 操作 ， 如 例 1-32 
所 示 。 

【 例 1-32】 可 变 Map 集合 示例 。 


第 人 1 章 Scala 零 基础 入 门 


1. val scores = Scala. collection. mutable. Map( "Scala" ->7,"Hadoop" ->8,"Spark" ->10 ) 

// 定 义 一 个 可 变 的 map 集 scores: Map( Hadoop ->8 , Spark -> 10,Scala -> 7) 
2. val HadoopScore = scores. getOrElse( " Hadooop" ,0) 

// 方 法 getOrElse 指 如 果 (k,v) 中 有 这 个 k 值 ,就 取 相 应 的 v 值 ;如 果 没 有 这 个 k 

值 ,就 直接 返回 第 二 个 参数 的 值 。 这 里 没有 " Hadooop" 这 个 上 值 ,因此 直接 就 返 

回 0 
3. scores += (" R" ->9) 

// HAR AY , Map 集 scores 增加 一 个 新 对 偶 , 新 的 Map 集 为 Map( Hadoop -> 

8,R ->9,Spark ->10,Scala ->7) 
4. val HadoopScore = scores. getOrElse(" Hadoop" ,0) 

/方法 getOrElse 指 如 果 (k,v) 中 有 这 个 k 值 ,就 取 相应 的 v 值 ;如 果 没 有 这 个 k 

值 ,就 直接 返回 第 二 个 参数 的 值 。 这 里 包含 "Hadoop" 这 个 k 值 ,返回 相应 的 值 8 

5. scores—="Hadoop" 

// > 可 变 的 Map 集 scores 删除 一 个 对 偶 ,新 的 ,Map 集 为 Map(R ->9,Spark 

-> 10,Scala ->7) 
执行 结果 如 下 : 
1. val scores = scala. collection. mutable. Map("Scala" ->7," Hadoop" ->8,"Spark" ->10 ) 
// >scores :scala. collection. mutable. Map| String, Int] = Map( Hadoop -> 8 , Spark 
//\ ->10,Scala ->7) 
2. valHadoopScore = scores. getOrElse(" Hadooop" ,0) 
// >HadoopScore  : Int =0 
3. scores += ("R" ->9) // >resl :com. dt. spark. test3. scores. type = Map( Hadoop -> 8, 
R ->9,Spark -> 10, Scala ->7) 
4. valHadoopScore = scores. getOrElse( " Hadoop" ,0) 
// > HadoopScore Int =8 

5. scores -= " Hadoop" // >ves2:com. dt. spark. test3. scores. type 


= Map(R ->9,Spark -> 10, Scala ->7) 


Scala 中 的 apply 方法 


在 Scala 中 定义 和 使 用 对 象 的 apply 方法 。 当 遇 到 以 下 形式 的 表达 式 时 ， 就 会 调用 apply 


方法 : 


Object (参数 1 ， 参 数 2，…… ， 参 数 n) 
apply 方法 类 似 于 类 的 初始 化 方法 ， 在 遇 到 对 象 Object (参数 1， 参 数 2，……… ， 参 数 m) 
时 被 调用 。 通 常 在 伴生 对 象 object 和 类 class 中 定义 。 


ee Object 中 的 apply 


FEE XT Ze objectApplyTest 定义 了 apply() 方 法 ， 通 过 apply( ) 方 法 实现 打印 输出 I am into 
Scala so much111， 以 及 新 建 一 个 ApplyTest class 类 。 


语言 基础 与 开发 实战 


1. objectApplyTest | 
D, def apply() = | 
3. println( "I am into Scala so much!!!" ) 
4. newApplyTest 
5. | 
6. | 
‘74 Class 中 的 apply 


类 classApplyTest 定义 了 apply( ) 方 法 ， 通 过 apply( ) 方 法 实现 打印 输出 I am into Spark so 
much!!!, class ApplyTest 拥有 一 个 方法 haveATry， 打 印 输 出 Have a try on apply! 


classApplyTest | 
def apply( ) = println( "I am into Spark so much!!!" ) 


println( " Have a try on apply!" ) 


1 

2 

3 

4. def haveATry | 
5 

6 | 

7 


| 


在 伴生 对 象 object ApplyTest 中 定义 了 apply( ) 方 法 ， 通 过 直接 赋值 ApplyTest( ) 给 val a 
变量 ， 调 用 object ApplyTest 的 apply( ) 方 法 ， 如 例 1-33 所 示 。 
【 例 1-33】 调 用 伴生 对 象 apply 并 运行 示例 。 


1. package com. dt. scala. oop 

2. classApplyTest | 

B def apply( ) = println( "I am into Scala so much!!!" ) 

4. defhaveATry | 

5. println( " Have a try on apply!" ) 

6. } 

Ts 4 

8. object ApplyTest {| 

9. def apply() = | //z€ X object ApplyTest 的 apply 方法 ,创建 ApplyTest 对 象 自动 调用 apply 
10. println( "I am into Scala so much!!!" ) 

11. new ApplyTest //apply( ) 新 建 了 一 个 class ApplyTest 的 实例 
12. | 

13. | 


14. object ApplyOperation | 

15. def main( args :Array[ String] ) | 

16. val a=ApplyTest() /创建 ApplyTest 对 象 , 其 apply 中 新 建 class ApplyTest 实例 赋值 给 a 
17. a. haveATry //a 拥有 了 class ApplyTest 的 haveATry 方法 
18. } 
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运行 结果 如 图 1-65 所 示 。 


© Console 52 
<terminated> ApplyOperation$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe | 


I am into Scala so much!!! 
Have a try on apply! 


图 1-65 调用 伴生 对 象 apply 运行 结果 


从 示例 代码 可 以 得 知 ; 

1) 直接 调用 伴生 对 象 ApplyTest( ) ， 无 须 使 用 new 新 建 对 象 ， 调 用 伴生 对 象 ApplyTest( ) 
就 会 触发 调用 apply( ) 方 法 ， 打 印 输出 "I am into Scala so much!!!" 。 

2) 同时 伴生 对 象 ApplyTest( ) 的 apply) 方法 会 新 建 (new) 一 个 class ApplyTest 对 象 ， 
将 class ApplyTest 对 象 复制 给 变量 a, a 就 拥有 了 class ApplyTest 对 象 的 haveATry 方法 。 

3) 执行 a haveATry 方法 ， 就 会 打印 输出 " Have a try on apply!" ， 程 序 结 


从 上 面 对 Array 数组 的 apply 实现 的 示例 可 以 举一反三 ， 类 似 思 
1) 无 须 新 建 (new) 一 个 对 象 ， 通 过 Array 对 象 直接 定义 一 个 数组 ， 调 用 Array (1, 2, 
3,4, 5) 就 会 触发 Array 的 apply( ) 方 法 。 


val array = Array(1,2,3,4,5) 


2) Œ Array(1,2,3,4,5) Pde F3 HE, AA Array 数组 apply( ) 方 法 的 源 代 码 ， 发 现 Array 
源 代码 中 会 新 建 (new) 一 个 new Array [Int] 对 象 ， 返回 一 个 Array 数组 。 


1. /* * Creates an array of Int objects */ // 此 内 容 来 源 自 Scala 的 源 代码 
2 //Subject to a compiler optimization in Cleanup ,see above. 

3 def apply(x;Int,xs:Int * ) ;Array[ Int] = | 

4 val array = new Array| Int] (xs. length +1) /新 建 一 个 数组 Array 

Sh array(0) =x 

6 var i=l 

7 for(x <- xs. iterator) | array(i) =x;i+=1 |} //4 array 赋值 

8 array 

oT 


在 类 class ApplyTest 中 定义 了 apply( ) 方 法 ， 通 过 new ApplyTest 实例 ， 调 用 class Ap- 
plyTest 的 apply( ) 方 法 ， 如 例 1-34 所 示 。 
【 例 1-34】 Class 类 的 apply 调用 示例 。 


1. package com. dt. scala. oop 
2. classApplyTest | // 定 义 类 class ApplyTest 
3. def apply( ) =println("I am into Spark so muchl11") // 定 义 类 ApplyTest 的 apply 方法 


语言 基础 与 开发 实战 


defhaveATry | 
println( " Have a try on apply!" ) // 定 义 haveATry 方法 


= 

object ApplyTest| /定义 伴生 对 象 ApplyTest 

1 

10. println( "I am into Scala so much!!!" ) /定义 伴生 对 象 的 apply 方法 
11. new ApplyTest 

De 

igh | 

14. object ApplyOperation | 


4 
5 
6. | 
7 
8 
9 


15, def main( args; Array[ String] ) | 


16. val a = new ApplyTest /创建 ApplyTest 实例 
17. a. haveATry // 调 用 haveATry 方法 
18. println(a) 
19. println(a( ) ) 
20. | 
21. | 
示例 代码 说 明 如 下 : 


1) 首先 new ApplyTest， 即 新 建 一 个 ApplyTest 对 象 ， 将 ApplyTest 对 象 赋值 给 a。 

2) 调用 a 的 haveATry 方法 ， 打 印 输出 " Have a try on apply!" 

3) printmn(a): 打印 的 是 com. dt. Scala. oop. ApplyTest@ 1d9a2ab, ， 即 ApplyTest 的 引用 地 址 。 

4) printn(a( ) ) : 使 用 a() 会 调用 触发 class ApplyTest 的 apply( ) 方 法 ， 打印 输 出 "I am 
into Spark so much!!!" 


运行 结果 如 图 1-66 所 示 。 


Problems $] Tasks GJ Console X% 
<terminated> ApplyOperation$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 
Have a try on apply! 
com.dt.scala.oop.ApplyTest@193elfc 
I am into Spark so much!!! 


BS 


1-66 Class 类 的 apply 调用 


1.8 BE 


本 章 介绍 了 什么 是 Scala 及 Scala 的 相关 基础 知识 ， 基 于 大 数据 领域 Spark 是 使 用 Scala 
开发 的 ,本章 拓 展 介绍 了 Hadoop 及 Spark 的 环境 搭建 过 程 ， 将 有 助 于 读者 以 后 的 Scala 学 
习 ， 相 信 读 者 依照 本 章 的 图 例 动手 实践 ， 将 在 零 基础 开发 的 基础 上 ， 在 最 短 的 时 间 内 上 手 
Scala， 步 人 Scala 及 大 数据 的 神圣 殿堂 。 
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第 2 章 Scala 面向 对 象 编程 开发 C 


万 事 万 物 丝 对 象 ， 客 观 世 界 中 的 一 个 事物 就 是 一 个 对 象 ， 每 个 客观 事物 都 有 自己 的 特征 
和 行为 。 面 向 对 象 编程 开发 是 指 将 所 有 预 处 理 的 问题 抽象 为 对 象 ， 同 时 了 解 这 些 对 象 具有 哪 
些 相 应 的 属性 ， 以 及 展示 这 些 对 象 的 行为 。 

面向 对 象 开发 之 前 ， 首 先 了 解 什么 是 类 和 对 象 ， 以 及 类 和 对 象 之 间 的 关系 。 对 象 就 是 客观 
世界 中 存在 的 人 、 事 和 物体 等 实体 ;而 类 就 是 对 同一 类 对 象 事物 抽象 的 总 称 ， 就 是 面向 对 象 中 
的 类 〈class) 。 例 如 ， 一 个 苹果 是 现实 生活 中 的 事物 相对 应 的 实体 ， 是 一 个 对 象 ， 而 苹果 类 就 
是 从 同一 类 苹果 抽象 出 来 的 类 ， 是 苹果 类 。 简 单 地 理解 ， 类 也 可 以 设想 为 数据 库 中 的 一 张 表 ， 
数据 表 中 定义 的 字段 ， 就 类 似 于 类 中 的 各 种 成 员 变量 ; 而 数据 表 中 的 增删 改 查 ， 就 类 似 于 类 中 
定义 的 各 种 方法 ， 对 类 中 的 成 员 变量 进行 各 种 操作 ; 而 对 象 ， 可 理解 成 数据 表 中 具体 的 一 行 行 
记录 ， 每 新 建 一 个 类 的 实例 ， 就 类 似 于 在 表 中 新 增 一 行 记录 ， 同 时 对 这 个 具体 的 对 象 ( 表 记 
K) 能 进行 增删 改 查 具体 的 操作 ;而 数据 库 表 与 表 之 间 的 各 种 关联 关系 ， 就 类 似 构 成 了 面向 对 
象 类 中 的 继承 、 多 态 等 各 种 关系 ; 数据 库 表 读 取 写 入 的 权限 ， 则 类 似 于 类 和 对 象 的 访问 权限 ，; 
这 样 ， 一 个 个 类 和 对 象 ， 就 成 了 面向 对 象 编程 开发 中 存储 数据 结构 的 方式 。 

本 音 将 介绍 面向 对 象 编程 开发 的 入 门 知 识 〈 类 、 构 造 融 、 内 外 部 类 、 伴 生 对 象 ); 类 的 继承 、 
ER, MAK, MATE, MARIA; trait 特质 应 用 ， 以 及 包 的 定义 、 引 用 及 访问 权限 等 内 容 。 


类 的 定义 及 属性 


em > 


Scala 类 的 基本 结构 通常 由 关键 字 、 标 识 符 、 变 量 、 方 法 和 注释 等 内 容 构成 。 在 类 声明 
中 ， 可 以 指定 类 的 名 称 、 类 的 访问 权限 或 者 与 其 他 类 的 关系 ， 而 在 类 体 中 ， 主 要 用 于 定义 变 
量 成 员 和 方法 。 

Scala 定义 类 最 简单 的 形式 和 Java 很 相似 ， 如 定义 class Student 类 : 


1. class Student} 

2 private varprivateAge =0 // 私 有 字段 ,初始 化 为 0 
3 val name =" Scala" // 定 义 属性 name 

4. def age = privateAge // 方 法 默认 是 公有 的 
5 

6 


defis Younger( other; Student) = privateAge < other. privateAge 


| 


语言 基础 与 开发 实战 


class Student 类 的 定义 如 例 2-1 所 示 。 

e 在 Scala IDE 中 ScalaInAction 工程 sre 目录 的 com. dt. scala. oop 包 中 新 建 HelloOOP. Scala 
文件 。 

© 构建 一 个 新 对 象 student val student = new Student, 

e 调用 student 对 象 的 方法 student. name, FH println 命令 打印 输出 student. name 值 为 Scala。 

【 例 2-1】 Scala 定义 类 示例 。 


1. package com. dt. scala. oop 

2. class Person {//7@ X class Person 类 

3, private var age =0 /定义 私有 属性 

4. def increment( ) | age +=1} /定义 increment 方法 

5. def current = age//7E XC current 方法 

6. def act(person;Person) | // 定 义 act 方法 

Te 

8. } 

9. | 

10. class Student|// 定 义学 生 类 class Student 

11. private varprivateAge =0 

12. val name =" Scala" 

13. def age = privateAge 

14. defis Younger( other; Student) = privateAge < other. privateAge // 定 义 isYounger 方法 
15. |} 

16. 

17. object HelloOOP | 

18. def main( args; Array[ String] ) ; Unit = | 

19. val person = new Person( )// 创 建 Person 类 实例 

20. person. increment() // 调 用 person 对 象 实例 的 increment 
21. person. increment( ) 

22. println( person. current) 

Dek, val student = new Student// 创 建 学 生 student 类 实例 

24. println( student. name) ”// 调 用 对 象 student 的 属性 name 
25. | 

26. } 


运行 结果 如 图 2-1 所 示 。 对 象 person 调用 2 次 increment( ) 方 法 ，age 变量 每 次 加 1， 然 
后 将 age =2 的 值 赋值 给 Current， 打 印 输入 2， 并 打印 输出 name 的 值 为 scala, 


目 Console 3% 
<terminated> HelloOOP$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 


2 
Scala 


图 2-1 类 定义 


带 有 getter 和 setter 的 属性 ) 


编写 Java IN, Java 类 属性 的 定义 使 用 getter 和 setter 方法 ， 这 样 的 一 对 getter 和 setter 
方法 称 为 属性 。 在 Scala 中 ，getter 和 setter 方法 并 不 是 直接 命名 为 getxxx 和 setxxx 的 ， 而 是 


光大 于 ”Scala 面向 对 象 编程 开发 


类 似 privateAge 和 privateAge_ = 的 定义 ,理解 为 privateAge 就 是 getxxx 方法 ，privateAge_ = 


是 setxxx 方法 ， 和 Java 中 的 用 意 是 一 样 的 。 
Java 中 getter 和 setter 方法 的 定义 如 下 : 


Public class Person} 


private int age; 


public void 


| 


Scala 中 


1. class Student} 


2. private varprivateAge =0 // E L—S Ja 


1 

2 

3. public int getAge() | return age;} //get 方法 
4 setAge(int age ) | this. age = age; |//set 方法 
5 


属性 的 定义 ; 属性 带 有 getter 和 setter 方法 : 


E privateAge , Scala 中 对 每 个 字段 都 提供 


就 


© 


getter 


和 setter 方法 ,在 代码 中 不 用 显 性 定义 ,但 在 scala 编译 字 节 码 中 实际 生成 了 getter 和 setter 
方法 , 即 privateAge 和 privateAge_= 的 定义 


val name =" Scala" 


def age = privateAge 


ON Nee) 


| 


Scala 中 


defis Younger( other; Student) = privateAge < other. privateAge 


属性 带 有 getter 和 setter 方法 的 验证 ， 步 又 如 下 : 


1) 在 Scala IDE "F, 4 ScalalnAction 工程 sre 目录 的 com. dt. scala. oop 包 中 ， 在 创建 的 


HelloOOP. Scala 上 单 击 鼠标 右键 ， 


选择 properties 命令 ， 弹 出 


属性 设置 对 话 框 ， 查 看 Hel- 


lo00P. Scala 的 文件 目录 : G:\scala\scala_workspace \ScalalnAction \src \com \ dt \scala \ oop \ Hel- 


lo00P. Scala, 4 2-2 所 示 。 


E? Properties for HelloOOP.scala 7 


= |. x 


| Resource 
Resource Path: 
Run/Debug Settings 
Type: 
Location: 
Size: 


Attributes: 


{¥] Archive 


E Derived 


5 Other: 


E Read-only 


/ScalalnAction/src/com/dt/scala/oop/HelloOOP.scala 

File (Scala Source File) 
G:\scala\scala_workspace\ScalalnAction\src\com\dt\scala\oop\HelloOOP.scala 
572 bytes 


Last modified: 2015 年 10 月 5 日 下 午 3:53:50 


Text file encoding 
©) Default (inherited from container: UTF-8) 


UTF-8 


v 


| Restore Defaults | | 


Lox JI 


语言 基础 与 开发 实战 


2) Æ Windows 系统 中 选择 “开始 ”一 “运行 ”命令 ， 在 “运行 ”窗口 中 输入 CMD 命 
4, 进入 DOS 环境 ， 在 命令 行 提示 符 中 进入 HelloOOP. Scala 的 目录 。 


G:\>cd G: \scala \scala_workspace \ScalaInAction \src \com\dt\scala \oop 
3) Æ DOS 提示 符 中 输入 Scalac HelloOOP. Scala， 编 译 生 成 JVM 字 节 码 。 
G: \scala\scala_workspace\ScalaInAction \sre \com\dt\scala\oop > scalac HellOOP. Scala 


4) 在 DOS 提示 符 下 使 用 javap — private Student 查看 Student 类 的 定义 。 


G: \scala \ scala_workspace \ ScalalnAction \ sre \ com \ dt \ scala \ oop \ com \ dt \ scala \ oop > javap-private 


Student; 
Javap-private Student 的 字 节 码 定义 如 下 ; 


public class com. dt. Scala. oop. Student | 


private int privateAge; //privateAge 是 私有 字段 


private int privateAge(); //privateAge 的 getter 方法 ,是 私有 方法 
private void privateAge_$ eq(int) ;//privateAge HY setter 方法 , = 在 jvm 中 翻译 为 $ eq, © 
私有 方法 


1 
2 
3. private final Java. lang. String name; 
4 
5 


public Java. lang. String name( ) ; 


public boolean isYounger( com. dt. Scala. oop. Student) ; 


6 
7A public int age() ; 
8 
9 


public com. dt. Scala. oop. Student( ) ; 


主 构造 器 、 私 有 构造 器 、 构 造 器 重 载 


构造 器 重 载 之 辅助 构造 器 ) 


Scala 中 可 以 有 任意 多 的 构造 器 ，Scala 类 与 Java 不 同 的 是 Scala A EAN HE, BT ER 
造 器 以 外 ， 类 还 有 任意 多 的 重 载 构造 器 ， 即 辅助 构造 器 。 辅 助 构造 器 的 名 称 为 his， 每 一 个 
辅助 构造 器 都 必须 以 一 个 先前 已 经 定义 的 其 他 辅助 构造 器 或 主 构造 器 的 调用 开始 。 

示例 代码 class Teacher 类 中 定义 了 一 个 辅助 构造 器 this， 辅 助 构 造 器 先 调用 主 构造 需 
this， 然 后 给 name 赋值 。 如 例 2-2 所 示 。 

【 例 2-2】Scala 类 构造 器 示例 。 


1. package com. dt. scala. oop 


2. class Teacher | 


var name; String = _ 
private var age =27 
private| this] val gender =" male" 
def this( name; String) | 
this /调用 主 构造 器 this 
this. name =name // 给 name 赋值 


| 


. def sayHello( ) | 


mon RAC 


println( this. name + 


第 2 章 


+ this. age + 
| 
| 


. object OOPInScala f 


def main( args; Array| String] ) | 
val p = new Teacher 
p. name = " Spark" 
p. sayHello 
| 
| 


Scala E E X} R tE NA 


© 


+ this. gender) 


运行 结果 如 图 2-3 所 示 。 新 建 一 个 teacher 对 象 ， 实 例 化 对 象 时 age 赋值 27, gender 赋 
值 male， 然 后 通过 P. name =" spark" 将 name 赋值 spark ， 调 用 方法 sayhello 打印 输出 name, 
age 、gender 的 值 。 


园 Console 2 


<terminated> OOPInScala$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 


Spark:27 : male 


图 2-3 辅助 构造 器 


Eee 主 构造 器 


在 Scala 中 ， 每 个 类 都 有 主 构造 咒 ， 主 构造 央 与 类 定义 在 一 起 : 
1) 主 构造 器 的 参数 直接 放 在 类 名 之 后 。 
2) 主 构造 器 的 参数 加 val 或 var 时 自动 升级 为 字段 ， 其 值 被 初始 化 成 构造 器 时 传人 的 参数 。 
3) 主 构造 器 在 类 中 除了 方法 之 外 ， 会 执行 类 定义 中 所 有 的 语句 。 

class Teacher 的 主 构造 器 参数 定义 (val name; String, val age:Int) 如 例 2-3 所 示 。 

【 例 2-3】Scala 主 构造 器 示例 。 


package com. dt. scala. oop 


class Teacher (val name: String, val age: Int) |// 主 构造 器 传人 参数 name, age 
println( " This is the primary constructor!!!" ) // 主 构造 右 执 行 语句 
var gender: String = _ // 主 构造 器 执行 语句 ， 为 占 位 符 , 也 可 设置 为 null 


println( gender) 


// > 


EHE Ar THA 
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def this(name:String,age:Int,gender:String) | 


this. gender = gender 


| 


0 
Is this( name, age ) 
8 
9 


10. } 

11. object OOPInScala į 

12. def main( args; Array[ String] ) | 
13. val p = new Teacher( " Spark" ,5) 
14. println( " ;" +p. age) 

15. } 

16. } 


运行 结果 如 图 2-4 所 示 。 新 建 一 个 Teacher("Spark" ,5)， 主 构造 器 传人 参数 Spark5， 主 
构造 器 执行 语句 打印 输出 "Thisis the primary constructor!!!" ， 因 为 gender 使 用 占 位 符 未 赋值 ， 
所 以 打印 输出 gender 的 值 为 null， 然 后 打印 输出 年 龄 值 : 5。 


(2) Problems | Tasks EJ Console 8 


<terminated> OOPInScala$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 
This is the primary constructor!!! 
null 

35. 


N 


2-4 主 构造 器 


不 同 访问 权限 的 构造 器 D 


Scala 类 中 主 构造 器 如 不 指定 访问 修饰 符 ， 默 认 访问 权限 为 public， 生 成 公有 构造 器 ; 
在 类 中 定义 主 构造 器 的 访问 修饰 符 为 private， 生 成 私有 构造 器 ， 只 人 允许 类 本 身 访问 ， 防 止 外 
部 实例 化 。 

(1) 公有 构造 器 

在 class Teacher 类 中 的 主 构造 器 默认 访问 权限 为 public。 

在 Windows 系统 中 选择 “开始 ”一 运行” 命令， 在 “运行 ”窗口 中 输入 CMD 命令 ， 
进入 DOS 环境 ， 在 命令 行 提示 符 中 进入 00PInScala 的 目录 ， 在 DOS 提示 符 中 输入 : scalac 
OOPInScala. Scala， 编 译 生 成 JVM 字 节 码 ， 在 DOS 提示 符 下 使 用 Javap - private Teacher 查看 
Teacher 类 的 定义 ， 此 时 class Teacher 类 中 主 构造 需 访 问 权 限 为 公有 : public com. dt. sca- 
la. oop. Teacher (java. lang. String，int) 。 可 以 通过 val p = new Teacher(" Spark" ,5) 来 实例 化 
对 象 ， 如 下 所 示 : 


IG:\scala\scala_workspace\Scalalnfiction\src\convt\scala\oop\comn\dt\scala\oopYJav 
p -private Teacher 

arning: Binary file Teacher contains com.dt.scala.oop.Teacher 

Compiled from “OOPInScala.Scala" 

public class com.dt.scala.oop.Teacher < 

private final java.lang.String name; 

private final int age; 

private java.lang.String gender; 

public java.lang.String name (>; 

public int age; 

public java.lang.String gender >; 

public void gender_$eq¢ java.lang.String); 

public com.dt.scala.oop.Teacher¢ java.lang.String, int); 

public com.dt.scala.oop.Teacher¢ java.lang.String. int, java.lang.String); 


光大 于 ”Scala 面向 对 象 编程 开发 


(2) 私有 构造 器 
在 class Teacher 类 中 定义 主 构 造句 的 访问 权限 为 private， 只 人 允许 class Teacher 自己 访问 ， 
不 允许 外 部 访问 ， 构 造成 为 私有 构造 器 。 


class Teacher private( val name; String, val age: Int) |// 定 义 private PVA tM AE > 
println( " This is the primary constructor!!!" ) 
var gender: String = _ 


println( gender) 


this( name, age ) 
this. gender = gender 


1 
2 
3 
4 
5. def this( name; String, age ; Int, gender; String) | 
6 
7 
8 | 

9 


| 


将 class Teacher 类 编译 生成 JVM 字 节 码 ， 在 DOS 提示 符 下 使 用 Javap-private Teacher Æ 
看 Teacher 类 的 定义 ，class Teacher 类 中 主 构 造 絮 访问 权限 为 私有 ， 如 下 所 示 : 


G:\scala\scala_workspace\ScalaInfAction\src \comMdt \scala\oop\conMit \scala\oop>Javu 
lap -private Teacher 

Warning: Binary file Teacher contains com.dt.scala.oop.Teacher 

Compiled from “OOPInScala.Scala” 

public class com.dt.scala.oop.Teacher < 

private final java.lang.String name; 

private final int age; 

private java.lang.String gender; 

public java.lang.String name (>; 

public int age >; 

public java.lang.String gender (>; 

public void gender_$Seq¢ java.lang.String); 

private com.dt.scala.oop.Teacher¢ java.lang.String. int); 

public com.dt.scala.oop.Teacher¢ java.lang.String. int, java.lang.String); 


这 样 class Teacher 类 的 主 构造 器 是 私有 构造 器 ， 直 接 通过 val p = new Teacher 
("Spark" ,5 ) 来 调用 会 报错 ， 提 示 没 有 足够 的 参数 来 调用 构造 器 ， 而 class Teacher 类 的 辅助 
构造 器 是 公有 方法 ， 可 以 通过 val pl = new Teacher(" Spark" ,5 ,"male"), fA 3 个 参数 给 
辅助 构造 器 进行 对 象 实例 化 。 


内 部 类 和 外 部 类 


TE Scala 中 ， 可 以 在 语法 结构 中 内 和 骸 语 法 结构 ， 例 如 ， 可 以 在 函数 中 定义 函数 ， 在 类 中 定义 
类 。 在 类 中 定义 类 ， 即 定义 内 部 类 和 外 部 类 。 在 Java FP, Java 的 内 部 类 从 属于 外 部 类 ， 在 
Scala 中 ，Scala 的 内 部 类 和 外 部 类 类 型 更 符合 常规 ， 例 如 ， 同 一 家 公司 的 职员 内 部 可 以 互相 加 联 
系 人 ， 而 不 同 的 公司 则 不 能 增加 。 如 果 要 增加 ， 需 要 通过 类 型 投影 来 实现 跨 公 司 加 联系 人 。 

(1) 内 部 类 、 外 部 类 

定义 一 个 外 部 类 Outer， 在 外 部 类 里 面 再 定义 一 个 内 部 类 ， 可 以 使 用 Outer => 给 外 部 类 
起 一 个 别名 叫 Outer， 然 后 在 内 部 类 Inner 就 能 通过 Outer 直接 引用 Outer 的 属性 方法 。 


语言 基础 与 开发 实战 


内 部 类 、 外 部 类 如 例 2-4 所 示 。 
【 例 2-4】 外 部 类 Outer、 内 部 类 Inner。 


1. 
2 
3h 
4. 
5b 
6. 
Te 
8. 
9. 


S 


a 
N 一 


天 =e = = 
NY eh ge Aa 


17. 


package com. dt. scala. oop 
class Outer( val name; String) | outer => /起 一 个 别名 叫 outer 
class Inner( val name: String) | 
def foo( b : Inner) = println( " Outer;" + outer. name + 


" +b. name) 


| 


Inner; 


| 
object OOPInScala | 


def main( args: Array[ String] ) | 
val outerl = new Outer("Spark" ) // 新 建 一 个 外 部 类 实例 outer] ,将 Spark 赋值 给 Outer 的 


name 


. val outer2 = new Outer(" Hadoop" ) 


val innerl = new outerl. Inner(" Scala" ) /新 建 外 部 类 outerl 的 内 部 类 innerl ,将 Scala 赋值 
给 Inner 的 name 

val inner2 = new outer2. Inner("Java" ) 

innerl. foo( inner! ) ;// 调 用 内 部 类 innerl 的 foo 方法 ,打印 输出 

inner2. foo(inner2 ) ; 

| 

| 


示例 代码 运行 如 图 2-5 所 示 。 调 用 内 部 类 innerl 的 foo 方法 ， 打 印 输出 外 部 类 名 称 Spark 
以 及 内 部 类 名 称 Scala; 调用 内 部 类 inner2 的 foo 方法 ， 打 印 输出 外 部 类 的 名 称 Hadoop 及 内 
部 类 名 称 Java。 


[2] Problems Æ Console X 


<terminated> OOPInScala$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 
Outer: Spark Inner: Scala 
Outer: Hadoop Inner: Java 


图 2-5 内 部 类 、 外 部 类 


在 Scala 交互 式 命令 行 ， 输 入 外 部 类 Outer 及 内 部 类 Inner 的 定义 ,输入 Innerl. foo (In- 
ner2) ， 调用 Inner2 内 部 类 , 会 清楚 地 看 到 Outer2. Inner 与 Outerl. Inner 的 类 型 不 匹配 (type 
mismatch) 。 如 例 2-5 PAN. 

【 例 2-5】 Scala Innerl. foo (Inner2) 调用 类 型 不 匹配 示例 。 


1 
2 
3. 
4. 
5 
6 
7 


scala > class Outer( val name:String) | outer => 
class Inner( val name:String) | 
deffoo( b : Inner) = println( " Outer; " + outer. name + 


" 


| 

| 

| " Inner:" +b. name) 
| 

| 


| 


defined class Outer 


可 以 通 
的 需要 来 实 


1. 
2 


这 样 ， 
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scala > val outerl = new Outer( " Spark" ) 

outerl ; Outer = Outer@ 1467 e74 

scala > val outer2 = new Outer(" Hadoop" ) 

outer2 ; Outer = Outer@ a537b3 © 
scala > val innerl = new outerl. Inner(" Scala" ) //innerl 的 外 部 类 是 outerl 

innerl :outerl. Inner = Outer $ Inner@ 1547681 

scala > val inner2 = new outer2. Inner(" Java" ) //inner2 的 外 部 类 是 outer2 


inner2 :outer2. Inner = Outer $ Inner@ 166d107 
scala > innerl. foo( inner! ) 

Outer; Spark Inner: Scala 

scala > inner2. foo( inner2 ) 


Outer: Hadoop Inner: Java 


scala > innerl. foo(inner2) /提示 报错 ,类 型 不 匹配 


< Console > :13 :error:type mismatch ; 


. found :outer2. Inner 


required ; outerl. Inner 


innerl. foo(inner2 ) 


scala > 


过 类 型 投影 Outer#Inner 来 解决 内 部 类 调用 问题 ， 在 实际 开发 中 需 根 据 业 务 逻 辑 
现 ， 避 免 混 乱 。 示 例如 下 : 


def foo(b:Outer#Inner) = println( " Outer:" + Outer. name + 


" 


" Tnner;" +b. name) 


Innerl. foo (Inner2) 就 能 运行 了 ， 执 行 的 结果 为 Outer: Spark Inner; Java, 


OR N EER A RBZ J H [a] LA Bi 
B Company， 在 外 部 类 Company 里 面 定义 一 个 内 部 类 Staf; 外 部 类 Com- 


pany 即 公 

a 
1. 
2 
3: 
4. 
Sh 
6. 
Ts 
8. 
9. 
10. 


ek 
an 


AFE A Fh 只 员 类 、 职员 数组 集 、 新 加 员工 方法 ; 内 部 类 Staff 职员 里 面 
人 属性 。 


class Company | // 定 义 一 个 外 部 类 Company 
class Staff( val name; String) | // 定 义 内 部 类 Staff 
val contacts = new ArrayBuffer| Staff | 
} 
val Staffs = new ArrayBuffer[ Staff | 
def join( name: String) = | //28 Company 的 join 方法 
val s = new Staff ( name) 
Staffs += s 


S 
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那么 现在 有 两 家 公司 : myFacebook 和 myTwitter。myFacebook 公司 增加 两 名 员工 : staffl _ 
myFacebook 和 staff2_myFacebook ，staffl _myFacebook 和 staff2_myFacebook 是 内 部 类 ， 属 于 
myFacebook 外 部 类 ; myTwitter 公司 增加 一 名 员工 staffl _myTwitter, staffl _myTwitter 是 内 部 
类 ， 属 于 myTwitter 外 部 类 。 

staffl_myFacebook 、staff2_myFacebook 同属 于 一 家 公司 (myFacebook 外 部 类 ) , 此 可 
以 互 加 联系 人 。staffl_myFacebook. contacts += staff2_myFacebook。 

staffl_myFacebook 、staffl_myTwitter 分 别 属 于 不 同 的 公司 (myFacebook 外 部 类 、myTwit- 
ter 外 部 类 ) ， 因 此 两 者 暂 还 不 能 互 加 联系 人 。Scala IDE 提示 报错 信息 type mismatch; found; 
myTwitter. Staff required; myFacebook. Staff， 表 明 两 者 的 类 型 不 同 。 
通过 类 型 投影 Company#Staff 来 处 理 ， 如 下 所 示 : 


1. class Staff( val name; String) | 
2: val contacts = newArrayBuffer[ Company#Staff | 


} 
这 样 , staffl_myFacebook , staffl_myTwitter 现在 可 以 互 加 联系 人 了 了 : 


staffl_myFacebook. contacts += staffl_myTwitter 


外 部 类 Company 、 内 部 类 Staff 示例 如 例 2-6 所 示 。 
【 例 2-6] Scala 内 部 类 、 外 部 类 类 型 投影 示例 。 


1. package com. dt. scala. oop 

2. import scala. collection. mutable. ArrayBuffer 

3. class Company | /定义 外 部 公司 类 Company 

4. class Staff( val name; String) | /定义 内 部 职员 类 Staff 

5. val contacts = new ArrayBuffer[ Company#Staff] 人 职员 类 有 通讯 录 联 系 人 contacts 属性 

6. } 

7. val Staffs = new ArrayBuffer[ Staff] // 定 义 职员 集 的 数组 Staffs 

8. def join(name:String) = | /定义 join 方法 ,新 增 一 个 职员 ,在 Staffs 数组 中 加 一 个 人 员 

9. val s = new Staff( name) 

10. Staffs += s /数组 Staffs 增加 新 人 员 

11. S 

by | 

13. } 

14. object OOPInScala | 

15. def main(args:Array[ String] ) | 

16. val myFacebook = new Company /创建 Company 类 ,赋值 给 myFacebook 

17. val myTwitter = new Company /创建 Company 类 ,赋值 给 myTwitter 

18. val staffl_myFacebook = myFacebook. join( " staffl_myFacebook" ) //myFacebook 加 入 一 个 新 
职员 staffl_myFacebook ,赋值 给 staffl_myFacebook 

19. val staff2_myFacebook = myFacebook. join( " staff2_myFacebook " ) //myFacebook 加 入 第 二 个 


新 职员 staff2_myFacebook , 赋值 给 staff2_my Facebook 
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20. staffl_myFacebook. contacts += staff2_myFacebook /在 职员 staffl_myFacebook 的 通讯 录 列 
表 中 加 入 职员 staff2_myFacebook , 两 个 人 同属 一 家 公司 myFacebook ,可 以 增加 通讯 录 


21. staffl_myFacebook. contacts += staffl_myTwitter // 在 职员 staffl_myFacebook 的 通讯 录 列 表 


中 加 入 另外 一 家 公司 的 职员 staffl_myTwitter 现实 场景 是 公司 内 部 人 员 可 以 互 建 通讯 录 ， S 
而 不 能 加 入 外 部 公司 的 人 员 。 但 定义 了 Company#Staff 类 型 投影 ,这 里 通讯 录 也 可 以 加 入 


外 部 公司 人 员 
22 val staffl _myTwitter = myTwitter. join ( "staffl _myTwitter" ) //myTwitter 加 入 一 个 新 职员 


staffl_myTwitter, 赋值 给 staffl _myTwitter 


23. for( elem <- myFacebook. Staffs ) println( elem. name) /打印 出 myFacebook 的 职员 名 单 


24. for( elem <— myTwitter. Staffs ) println( elem. name) // 打印 出 myTwitter 的 职员 名 单 


25. | 
26. } 


运行 结果 如 图 2-6 所 示 。 打 印 输出 myFacebook 公司 的 职员 名 单 staffl _myFacebook , 


staff2_myFacebook; 打印 输出 myTwitter 公司 的 职员 名 单 Staffl_myTwitther。 
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<terminated> OOPInScala$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe | 


staff1_myFacebook 
staff2_myFacebook 
staff1_myTwitter 


到 2-6 ”类 型 投影 Company#Staff 


| Section | 
单 例 对 象 、 伴 生 对 象 


(1) 单 例 对 象 


Scala 中 没有 静态 方法 和 静态 字段 ，Scala 中 使 用 object 对 象 来 实现 同样 的 效果 ，object 


对 象 定义 了 某 个 类 的 单个 实例 ， 如 : 


1. object University| ”// 定 义 单个 实例 对 象 University 

2 private varstudentNo =0 

3 defnewStudenNo = | // 定 义 newStudenNo 方 法 ,将 学 号 加 1, 返 回 新 的 学 号 studentNo 
4. studentNo +=1 

5 studentNo 

6 | 

TE 


(2) 伴生 对 象 


在 Scala 中 ， 可 以 通过 类 与 类 同名 的 “伴生 ”对 象 来 实现 既 有 实例 方法 又 有 静态 方法 的 
类 。 如 例 2-7 所 示 。 在 Scala 中 ， 可 以 通过 类 与 类 同名 的 “伴生 ”对 象 来 实现 既 有 实例 方法 


又 有 静态 方法 的 类 。 定 义 类 class University， 类 class University 拥有 自己 的 


属性 id, number 


(id 直接 调用 伴生 对 象 的 newStudenNo 方法 赋值 ) Æ class University 拥有 自己 的 方法 aClass; 


语言 基础 与 开发 实战 


同时 定义 类 class University 的 伴生 对 象 object University， 伴 生 对 象 object University 拥有 自己 
的 属性 学 号 studentNo， 及 新 增 一 个 学 号 的 方法 newStudenNo， 返 回 新 学 号 。 伴 生 对 象 object 
University 相当 于 Java 的 静态 类 ， 无 须 实例 化 ， 可 以 直接 调用 伴生 对 象 的 方法 。 如 例 2-7 
所 示 。 

【 例 2-7】 Scala 伴生 对 象 示 例 。 


1 
2 
3 
4 
5. 
6 
7 
8 
9 


package com. dt. scala. oop 
class University} /定义 类 University 
val id = University. newStudenNo 
private var number =0 
defaClass( number : Int) | this. number + = number} 
| 
object University | /定义 类 University 的 伴生 对 象 object University 
private var studentNo =0 
def newStudenNo = | 
studentNo += 1 
studentNo 
| 
| 
object ObjecOps | 
def main( args: Array| String | ) ; Unit = | 
printIn( University. newStudenNo) /直接 调用 伴生 对 象 University 的 方法 newStudenNo 
println( University. newStudenNo) /再 次 调用 newStudenNo 方法 ,学 号 studentNo 再 加 1 
| 
| 


类 和 它 的 伴生 对 象 可 以 相互 访问 私有 属性 ， 类 和 伴生 对 象 需 保存 于 同一 个 源 文件 中 。 使 
用 object 伴生 对 象 定义 配置 文件 的 应 用 较 多 。 

运行 结果 如 图 2-7 所 示 。 使 用 伴生 对 象 University 无 需 new 一 个 对 象 实例 ， 直 接 调 用 伴 
生 对 象 University 的 newStudenNo 方法 ， 将 studentNo 学 牛 学 号 加 1， 打 印 输出 结果 1; 然后 第 
二 次 调用 伴生 对 象 University 的 newStudenNo 方法 ， 学 生 学 号 再 加 1， 打 印 输出 结果 2。 


PS) 继承 : 超 类 的 构造 、 重 写字 段 、 重 写 方法 
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<terminated> ObjecOps$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 
1 
2 


图 2-7 类 和 伴生 对 象 


在 Scala 中 ， 使 用 继承 可 以 减少 代码 的 元 余 性 ， 使 整个 程序 的 架构 变 得 有 弹性 ， 继 承 机 
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制 的 使 用 可 以 复 用 一 些 定义 好 的 类 ,减少 重复 代码 的 编写 ， 也 可 以 提高 软件 的 可 维护 性 和 可 
扩展 性 。 


sa EEC 


Scala 继承 类 使 用 extends 关键 字 ， 如 先 定义 一 个 class Personl 类 : 


1. class Person! (val name:String,var age:Int) | /定义 一 个 类 Personl 
2 println( "The primary constructor of Person" ) 

3. Val school = " BJU" 

4. def sleep ="8 hours" 

5 override def toString =" I am a Person11"” // 重 写 方法 toString 

@ 


class Worker 类 的 定义 继承 了 class Personl 类 ， 在 类 名 之 后 使 用 extends Personl 子 句 表示 
继承 class Personl 类 : class Worker 类 继承 class Person? 类 所 有 非 私有 的 成 员 ，class Worker 
类 成 为 class Personl 类 的 子 类 型 。 这 样 ，class Worker 类 继承 class Personl 类 ，class Worker 
类 被 称 为 子 类 ， 而 class Personl 类 被 称 为 超 类 : 


1. class Worker(name:String,age: Int, val salary; Long) extends Person! (name, age) |// 继 承 超 类 
Person 

2 println( " This is the subClass of Person, Primary constructor of Worker" ) 

3 override val school =" Spark" 

4. override def toString = "I am a Worker!" + super. sleep // 重 写 方法 toString 

ab 


RA AP EPS a ie FS A ee, te A PRY this; 每 一 个 辅助 构造 器 都 
必须 以 一 个 先前 已 经 定义 的 其 他 辅助 构造 器 或 主 构造 器 的 调用 开始 。 子 类 的 辅助 构造 器 会 调 
用 主 构造 髓 ， 主 构造 器 可 以 调用 超 类 的 构造 器 。 主 构造 器 和 类 定义 合 在 一 起 的 ， 调 用 超 类 的 
构造 器 的 方法 也 合 在 一 起 。 

以 下 代码 定义 了 一 个 子 类 class Worker 继承 超 类 Person - 


class Worker( name : String, age: Int ,val salary; Long) extends Person! ( name, age) 
也 同时 定义 了 一 个 调用 超 类 构造 器 的 主 构造 器 : 
class Worker( name : String , age : Int ,val salary; Long) extends Person! ( name, age) 


本 例 中 class Worker 子 类 的 3 个 参数 name: String, age: Int, val salary; Long 有 两 个 参 
数 name: String, age: Int 传递 给 了 超 类 Personl 的 主 构造 器 。 创 建 一 个 子 类 new Worker 
("Spark" ,5 ,100000) ， 会 调用 超 类 Personl 的 主 构造 器 ， 给 超 类 Personl 的 name, age 赋值 ， 
执行 超 类 Personl 的 主 构造 器 的 语句 ， 如 打印 输出 超 类 的 语句 The primary constructor of Per 
son; 然后 调用 子 类 Worker 的 主 构造 器 ， 执 行 子 类 Worker 的 主 构造 器 语句 ， 打 印 输出 子 类 


的 语句 “This is the subClass of Person, Primary constructor of Worker,” 


语言 基础 与 开发 实战 


Le 


超 类 中 有 一 个 字段 val school ; 


1. class Person] (val name:String,var age: Int) | 
Oe ee 
3. val school = "BJU" 
ASS ne 
s l 

在 子 类 class Worker 使 用 override 关键 字 重 写 超 类 的 val school 字段 ， 赋 值 val school 为 
"Spark" : 


class Worker(name:String,age:Int,val salary; Long) extends Personl(name,age) | 


1 

PI Fes 

3. override val school = " Spark" 
4 

5 


2.5.3 重 写 方法 


超 类 Personl 中 有 一 个 方法 def toString =" I am a Personl!", #828 Personl 也 使 用 over- 
ride 关键 字 重 写 了 Scala. AnyRef 的 toString 方法 : 


class Person] ( val name: String, var age: Int) | 


1 
2 
3. override def toString = "I am a Person1 !" 
4 


| 
在 子 类 class Worker 通过 关键 字 override 重 写 超 类 Person! 的 toString 方法， 打印 输出 " I 


am a Worker!" + super. sleep: 
class Worker( name: String, age: Int, val salary: Long) extends Person] ( name, age) | 


1 
2 
3. override def toString = "I am a Worker!" + super. sleep 
4 


| 


Scala 类 方法 的 重 写 如 例 2-8 所 示 。 定 义 一 个 类 class Person1 ， 包 含 属 性 姓名 name、 年 
if age， 类 class Personl 继承 自 AnyRef，AnyRef 继承 自 Any 28, Any 类 是 Scala 整个 层级 的 
根 节点 ， 类 class Person! 重 写 超 类 AnyRef 的 toString 方法， 打印 输出 字符 串 I am a Person! ! ; 
代码 中 定义 了 一 个 子 类 class Worker， 包 含 属 性 name, 4F i age, rØ salary， 继 承 自 超 类 
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Personl ， 同 时 重 写 了 超 类 Personl AY toString 方法， 打印 输出 I am a Worker! 及 超 类 的 sleep 
属性 值 8 hours, 
【 例 2-8] Scala 类 方法 的 重 写 。 


1. package com. dt. scala. oop 

2. classOverrideOperations 

3. class Person! (val name; String, var age; Int) | // 定 义 类 class Personl 

4. println( "The primary constructor of Person" ) 

Jo val school = " BJU" 

6. def sleep = "8 hours" 

T override def toString =" I am a Personl!" // 重 写 方法 toString 

8. | 

9. 

10. class Worker( name: String, age; Int, val salary; Long) extends Person] ( name, age) | 


//class Worker 继承 超 类 class Personl 
11. println( "This is the subClass of Person, Primary constructor of Worker" ) 


12. override val school =" Spark" 


13. override def toString = "I am a Worker!" + super. sleep// 重 写 方法 toString 

14. | 

15. objectOverrideOperations | 

16. def main( args; Array| String] ) | 

17. val w =new Worker(" Spark" ,5 ,100000)//#1#2—‘ Worker 实例 ,执行 Personl 超 类 的 构造 
ne TASS Worker 的 构造 器 语句 


18. println( "School:" +w. school) 


19. printIn("Salary;" +w. salary) 
20. println( w. toString( ) ) 
Pil, 4h 


22 1 


运行 结果 如 图 2-8 所 示 。 实 例 化 一 个 Worker 子 类 对 象 ， 传 人 姓名 、 年 龄 、 薪 酬 各 个 参 
数 ("Spark" ,5,100000) ， 子 类 对 象 实例 化 过 程 中 首先 执行 Personl 超 类 的 构造 器 语句 ， 构 
造 器 中 的 语句 都 会 执行 ， 因 此 打印 输出 一 行 语句 The primary constructor of Person; 然后 执行 
Worker 子 类 的 构造 需 语 句 ， 打 印 输出 This is the subClass of Person, Primary constructor of 
Worker; 然后 依次 执行 main 方法 体 中 后 续 的 三 条 打印 语句 println ( " School:" + w. school) 、 
println(" Salary:" +w. salary) , println( w. toString( ) ) 打印 输出 结果 。 


© Console % 


<terminated> OverrideOperations$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 
The primary constructor of Person 

This is the subClass of Person, Primary constructor of Worker 

School :Spark 

Salary :100000 

I am a Worker!8 hours 


Al2-8 超 类 的 重 写 方法 运行 结果 
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| 2.6 | 抽象 类 、 抽 和 象 字段 、 抽 象 方法 


在 Scala 中 ， 可 以 使 用 abstract 关键 字 定 义 不 能 被 实例 化 的 类 ， 即 定义 一 个 抽象 类 ， 抽 
象 类 定义 的 成 员 变量 不 强制 要 求 有 具体 的 赋值 ， 抽 象 类 中 定义 的 方法 也 不 强制 要 求 有 方法 实 
现 体 ， 如 abstract class SuperTeacher 抽象 类 中 方法 def teach 就 没有 具体 的 执行 语句 ， 需 要 每 
一 个 class SuperTeacher 具体 的 子 类 在 子 类 的 teach 方法 中 给 出 具体 执行 语句 。 


abstract classSuperTeacher( val name; String) | 


var id; Int 


1 

2 

3. var age; Int 
4 def teach 
5 


| 


2.6.2 抽象 字段 


抽象 类 可 以 拥有 抽象 字段 ， 抽 象 字段 就 是 没有 初始 赋值 的 字段 ， 如 class SuperTeacher 抽 
象 类 中 var id, var age 字段 就 没有 定义 具体 的 值 ， 为 抽象 字段 。 如 果 不 是 抽象 类 ， 在 类 中 的 
字段 成 员 属 性 都 必须 先 赋值 ， 否 则 Scala IDE 编译 器 会 提示 出 错 。 


abstract class SuperTeacher( val name: String) ) | 
var id; Int 


1 
2. 
3. var age; Int 
4 
5 


2.6.3 抽象 方法 


抽象 类 可 以 拥有 抽象 方法 ， 抽 象 方法 就 是 没有 具体 的 方法 执行 体 ， 如 classSuperTeacher 
抽象 类 中 def teach 方法 就 没有 定义 具体 的 执行 语句 ， 为 抽象 方法 。 

抽象 类 、 抽 象 字段 、 抽 象 方法 如 例 2-9 所 示 。 定 义 一 个 抽象 类 abstract class SuperTeacher， 
包含 一 个 构造 器 属性 姓名 name, WRX PENTE id, age, H FÆ SuperTeacher 是 抽象 类 ， 
此 抽象 类 中 的 字段 可 以 不 用 赋值 ， 抽 象 类 中 的 抽象 方法 teach 方法 也 无 须 定义 方法 实现 体 。 

定义 一 个 类 class TeacherForMaths， 包 括 构造 需 属 性 姓名 name， 继 承 至 抽象 类 Super- 
Teacher， 在 类 class TeacherForMaths 中 重 写 抽象 字段 id 、age， 重 写 抽象 方法 teach, FJ EN HH 
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出 一 行 语句 Teaching111。 
【 例 2-9】 Scala 抽象 类 、 抽 象 字 段 、 抽 象 方法 示例 。 


1. package com. dt. scala. oop 

2.  classAbstractClassOps | © 
3. varid:Int=_ 

4. | 

5. abstract classSuperTeacher( val name:String) | /定义 抽象 类 abstract classSuperTeacher 
6. var id; Int /抽象 类 的 抽象 字段 无 须 赋 值 

Us Var age: Int 

8. ”def teach 人 抽象 类 的 抽象 方法 无 须 定义 方法 实现 体 

9. } 

10. classTeacherForMaths( name: String) extends SuperTeacher( name) | 

11. override var id = name. hashCode() ”// 重 载 变 量 id ,赋值 name 的 hash 值 


12, override var age =29 // 重 载 变量 age ,赋值 20 

13. override def teach} // ÆR teach 方法 ,打印 输出 语句 

14. println( "Teaching! 11" ) 

15. | 

16. | 

17. object AbstractClassOps | 

18. def main( args: Array[ String] ) | 

19. val teacher = new TeacherForMaths(" Spark" ) /创建 TeacherForMaths 实例 
20. teacher. teach// 调 用 teach 方法 


21. println( "teacher. id" +" ;" + teacher. id) 
22A println( teacher. name +" ;" + teacher. age) 
2a } 

24. | 


运行 结果 如 图 2-9 所 示 。 实 例 化 对 象 TeacherForMaths(" Spark" ) ， 传 人 姓名 name 参数 
的 值 为 Spark， 然 后 调用 对 象 teacher 的 teach 方法 ， 打 印 输出 一 行 语 句 Teaching!!!; 后 续 调 
用 两 条 打印 语句 ， 依 次 打印 输出 id, FE age 的 值 。 
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<terminated> AbstractClassOps$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe | 
Teaching!!! 

teacher. id:80085693 

Spark: 29| 


图 2-9 抽象 类 、 抽 象 字 段 、 抽 象 方法 


trait 特质 


trait 特质 是 Scala 中 代码 复 用 的 重要 单元 ， 特 质 封装 了 方法 和 字段 的 定义 ， 在 Scala 语言 
中 ， 和 Java 不 同 的 是 ，Scala 提供 特质 而 不 是 接口 trait 特质 可 以 同时 拥有 抽象 方法 和 具体 


语言 基础 与 开发 实战 


方法 ， 类 可 以 实现 多 个 特质 。 与 类 的 继承 中 每 个 类 只 能 继承 超 类 不 同 ， 类 可 以 混和 人 任意 多 个 


特质 。 


作为 接口 使 用 的 trait ) 


Scala 特质 使 用 trait 关键 字 定 义 一 个 trait 特质 ， 特 质 中 没有 被 实现 的 方法 就 是 抽象 的 ， 
可 以 不 用 将 方法 声明 为 abstract: 


1. trait Logger} 
Ds def log( msg; String) /这 个 是 抽象 方法 
Se 


和 Java 使 用 implements 不 同 ， 子 类 class ConcreteLogger 使 用 extends 继承 实现 Logger 特 
质 ， 可 以 给 出 log 方法 的 具体 实现 ， 如 果 trait Logger 中 log 的 定义 是 抽象 方法 def log (msg: 
String) ， 在 ConcreteLogger 类 中 可 以 不 用 override 关键 字 ， 如 果 trait Logger 中 log 的 定义 是 
def log( msg:String) 1} ， 在 trait 方法 log 有 具体 的 实现 ， 那 么 在 ConcreteLogger 类 需 加 上 over- 
ride 关键 字 重 写 log 方法 : 


1. classConcreteLogger extends Logger with Cloneable { 

2 override def log( msg;String) = printIn(" Log;" +msg) // 重 写 log 方法 
3 defconcreteLog| /定义 concreteLog 方法 

4. log( "It s me !!!") 

5 | 

@ | 


如 果子 类 class ConcreteLogger 使 用 的 特质 不 止 一 个 ， 可 以 使 用 with 关键 字 添 加 其 他 的 特 
质 ， 例 如 Cloneable 特质 。 

运行 结果 如 图 2-9 所 示 。 实 例 化 对 象 TeacherForMaths(" Spark" ) ， 传 人 姓名 name 参数 
的 值 为 Spark， 然 后 调用 对 象 teacher 的 teach 方法 ， 打 印 输出 一 行 语 句 Teaching!!!; 后 续 调 
用 两 条 打印 语句 ， 依 次 打印 输出 id、 年 龄 age 的 值 。 

【 例 2-10) Scala trait 定义 及 调用 示例 。 


scala > trait Logger! //7E X Logger 特质 
| 
| def log( msg:String) | |} /定义 log 抽象 方法 
ti 
defined trait Logger 
scala > classConcreteLogger extends Logger with Cloneable| /继承 Logger 及 Cloneable 特质 
| 


override def log( msg:String) = println( "Log:" + msg) 


NGOS eh Ag SS 


2 


defconcreteLog | 
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11. | log( "It s me !!!") 


13. | } 

14. defined classConcreteLogger 

15. scala > val logger = newConcreteLogger 

16. logger: ConcreteLogger = ConcreteLogger@ 1 efa483 

17. scala > logger. concreteLog //logger 调用 concreteLog 方法 ,将 Is me !!! 18 A log 打印 输出 
18. Log:It s me !!! 


19. scala > 


在 对 象 中 混入 trait 


在 新 建 单个 对 象 时 ， 可 以 使 用 with 关键 字 为 前 面 的 类 混入 特质 ， 然 后 实例 化 混入 后 的 
新 的 组 合 类 型 ， 如 ConcreteLogger 在 之 前 的 定义 中 已 经 使 用 了 Logger 和 Cloneable 特质 ,但 是 
可 以 在 构造 具体 对 象 logger 的 时 候 混 入 一 个 TraitLogger 日 志 的 实现 ， 在 logger 对 象 上 调用 log 
方法 的 时 候 ，TraitLogger 日 志 特 质 的 log 方法 就 会 被 执行 。 如 例 2-11 所 示 。 

[B] 2-11】 Scala 在 对 象 中 混入 trait, 

定义 trait 特质 ， 拥 有 log WIA; 定义 TraitLogger 特质 继承 logger 特质 ， 并 且 重 写 了 log F 
法 ; 类 class ConcreteLogger 继承 了 Logger, Cloneable 特质 ， 拥 有 concreteLog 方法 。 新 建 Con- 
creteLogger 对 象 logger， 在 对 象 logger 中 混入 了 TraitLogger 特质 。 


1. package com. dt. scala. oop 

2 trait Logger)  //7E SC trait 特质 

3 def log( msg:String) | } 

4. | 

D classConcreteLogger extends Logger with Cloneable | 
有 

8 

9. 


def concreteLog | 


x log( "It s me !!!") 
| 

10. } 
11. 
12. trait TraitLogger extends Logger| /定义 TraitLogger 继承 logger 特质 , 重 写 log 方法 
13. override def log( msg; String) | 
14. println( " TraitLogger Log content is:" + msg) 
iS, | 
16. } 
17. object UseTrait extends App | 
18. val logger = new ConcreteLogger with TraitLogger 
19. logger. concreteLog //logger. concreteLog, 4 It s me !!! 传人 TraitLogger 重 写 的 log 打印 


输出 
20. } 
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运行 结果 如 图 2-10 所 示 。 新 建 对 象 logger， 实 例 化 时 混入 了 TraitLogger 特质 ， 在 调用 
logger 的 concreteLog 方法 时 ,将 Is me !!! 传人 TraitLogger 重 写 的 log 打印 输出 TraitLogger 


Log content is ; It s me !!!, 


Problems |] Tasks! GJ Console % 
<terminated> UseTrait$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 
TraitLogger Log content is : It's me !!! 


图 2-10 在 对 象 中 混 人 Trait 


2.7.3 trait 深入 解析 


首先 在 Java JVM 中 验证 一 下 wait 的 实现 。 在 Scala 中 需要 将 特质 trait 翻译 成 为 JVM 的 
类 和 接口 ， 在 DOS 提示 符 中 进入 UseTrait. Scala 目录 ， 执 行 编译 Scalac UseTrait. Scala; 然后 
进入 UseTrait 的 字 节 码 文件 的 目录 ， 使 用 Java - private Logger 查看 。 

(1) Logger 特质 trait 

定义 一 个 特质 Logger: 


1. trait Logger] 
2, def log( msg:String) | } 
a. 


在 JVM 中 traitLogger 被 翻译 成 了 Java 的 接口 ， 如 下 所 示 : 


1. public interface com. dt. Scala. oop. Logger | 
2. public abstract void log( Java. lang. String) ; 
3 | 


=\scala\scala_workspace\Scalalnfction\src \com\dt \scala\oop\comNdt \scala\oop>Javu 
p -private Logger 

arning: Binary file Logger contains com.dt.scala.oop.Logger 

ompiled from “UseTrait .Scala" 

ublic interface com.dt.scala.oop.Logger < 

public abstract void log¢java.lang.String>; 


(2) class ConcreteLogger 类 
定义 一 个 类 ConcreteLogger， 继 承 特质 Logger 及 Cloneable ; 


1. classConcreteLogger extends Logger with Cloneable| 

2 override def log( msg:String) = println( " Log:" + msg) 
3 defconcreteLog | 

4. log( "It s me !!!") 

5 | 

6. | 


Trait 特质 的 继承 在 JVM 中 被 翻译 成 Java 接口 的 implements 实现 ， 如 下 所 示 : 
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IG: \scala\scala_workspace \ScalalInfct ion\src \com\dt \scala\oop\com\dt \scala\oop>Jav 

p -private ConcreteLogger 

arning: Binary file ConcreteLogger contains com.dt.scala.oop.ConcreteLogger 

Compiled from “UseTrait .Scala" 

public class com.dt.scala.oop.ConcreteLogger implements com.dt.scala.oop.Logger. 

scala.Cloneable < 

public void log¢java.lang.String>; 

public void concreteLog(>; 

public com.dt.scala.oop.ConcreteLogger(); 

> 


(3) TraitLogger 特质 
定义 特质 TraitLogger, 继承 特质 Logger: 


1 
2 
3h, 
4 
5 


trait traitLogger extends Logger | 
override def log( msg : String ) | 


" 


println(" TraitLogger Log content is;" + msg) 


| 


特质 TraitLogger 在 JVM 中 被 翻译 成 为 interface 接口 ， 如 下 所 示 : 


IG: \scala\scala_workspace \ScalalInfct ion\src \comN\dt \scala\oop\com\dt \scala\oop>Jav 

p -private TraitLogger 

arning: Binary file TraitLogger contains com.dt.scala.oop.TraitLogger 

Compiled from “UseTrait .Scala" 

public interface com.dt.scala.oop.TraitLogger extends com.dt.scala.oop.Logger < 
public abstract void log¢java.lang.String>; 

P 


(4) UseTrait 对 象 
定义 UseTrait 对 象 ， 继 续 特 质 App: 


在 obj 


1 
2 
3. 
4 


objectUseTrait extends App | 
val logger = newConcreteLogger with TraitLogger 


logger. concreteLog 


} 
ect UseTrait extends App |} 对 象 体 中 没有 定义 main 的 人 口 函 数 (def main (args: 


Array [String]) 1} )， 那 么 编译 絮 是 如 何 找到 入 口 运行 的 呢 ?” 按 F3 键 看 一 下 特质 App 的 源 
代码 ， 原 来 UseTrait 继承 了 特质 App， 而 在 特质 App 中 定义 了 main WJA HO KX 
特质 App 的 部 分 源 代码 如 下 : 


10. } 


1 
2 
3 
4 
5. 
6 
i 
8 
9 


trait App extendsDelayedInit | /此 段 代 码 来 源 自 Scala 的 源 代码 
88 // 特 质 App 继承 了 DelayedInit 
def main( args; Array[ String] ) = | // 这 里 定义 了 main 入口 函数 
this. _args = args // 传 入 参数 
for( proc <- initCode) proc( ) 


if( util. Properties. proplsSet( "scala. time" ) ) | 
val total = currentTime — executionStart 


Console. println(" [ total " + total +" ms ]" ) 
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还 可 以 在 Java JVM 中 验证 一 下 是 否 有 main 入 口 函 数 生 成 ， 如 下 所 示 为 UseTrait Æ JVM 
中 确实 翻译 生成 了 main A H KX: 


G:\scala\scala_workspace \Scalalnfct ion\sre \com\dt \scala\oop\com\dt \scala\oop>Jau 
p -private UseTrait 

arning: Binary file UseTrait contains com.dt.scala.oop.UseTrait 

Compiled from “UseTrait .Scala" 

public final class com.dt.scala.oop.UseTrait < 

public static void main¢java.lang.StringL1>; 

public static void delayedInit<scala.Function@&<scala.runtime.BoxedUnit >>; 
public static java.lang.Stringl] args); 

public static void scala$App$_setter_$Sexecut ionStart_Seq¢long>; 

public static long executionStart (>; 

public static com.dt.scala.oop.ConcreteLogger logger<>; 


多 重 继承 、 多 重 继承 构造 器 执行 顺序 及 AOP 实现 


DS ZEER D 


Scala 和 Java 都 不 允许 类 从 多 个 超 类 继承 ， 如 果 需 要 同时 扩展 继承 两 个 以 上 的 抽象 基 类 时 ， 
在 Scala 中 可 以 使 用 trait 特质 来 实现 。 定 义 一 个 class Human 类 ， 特 质 traitTTeacher 继承 了 class 
Human 类 ， 拥 有 一 个 teach 的 抽象 方法 ; 特质 traitPianoPlayer 继承 了 class Human 类 ， 和 特质 
trait TTeacher 不 同 ,在 特质 traitPianoPlayer 中 定义 了 playPiano 的 具体 实现 方法 ; class 
PianoTeacher 类 继承 了 Human 类 ， 同 时 混和 人 了 特质 TTeacher 和 特质 PianoPlayer。 如 例 2-12 
所 示 。 

【 例 2-12】 Scala 多 重 继承 示例 。 

新 建 一 个 PianoTeacher 对 象 tl, class PianoTeacher 是 多 重 继 承 ， 继 承 了 class Human, 
trait TTeacher trait PianoPlayer, 即 钢琴 教师 是 一 个 人 ， 同 时 是 一 个 教师 ， 也 是 一 个 钢琴 弹 
奏 者 ,拥有 各 个 超 类 的 方法 。 调 用 对 象 t1 的 playPiano Wi, WA AOR VA gs Ae, eA 
WRU 的 teach 方法 ,钢琴 教师 也 可 以 上 课 。 


1. package com. dt. scala. oop 

2. class Human} // 定 义 Human 类 

3 println( " Human" ) 

Ao 

5.  traitTTeacher extends Human | /特质 TTeacher 继承 Human 类 
6 println( " TTeacher" ) 

7. def teach //7 X% teach 抽象 方法 

S i 

9. traitPianoPlayer extends Human | //7E X PianoPlayer 特质 
10. println( " PianoPlayer" ) 

11. defplayPiano = | println( "I m playing piano. " ) | 


第 2 章 Scala 面 向 对 象 编程 开发 


13. classPianoTeacher extends Human with TTeacher with PianoPlayer | // 定 义 PianoTeacher 继承 
Human 类 ,同时 混入 特质 TTeacher 和 特质 PianoPlayer 


14. override def teach = | println( "I m training students. " ) | 
15. | 

16. object UseTrait extends App | 

17. val tl = new PianoTeacher 

18. tl. playPiano 

19. tl. teach 

20. } 


在 Scala 中， 特质 trait 多 重 继承 的 实现 ， 也 可 以 在 新 建 一 个 对 象 时 混和 多 个 特质 来 实 
现 ， 如 : 


val t2 = new Human withTTeacher with PianoPlayer | 


def teach = | println( "I m teaching students. ")} | ”// 这 里 定义 了 一 个 匿名 方法 teach 


多 重 继承 构造 器 执行 顺序 


在 Scala 特质 trait 的 多 重 继承 构造 器 执行 中 ， 执 行 的 顺序 是 从 左 往 右 ， 即 new 一 个 Pi- 
anoTeacher 对 象 ， 执 行 顺序 为 : 

o 先 执行 Human 的 构造 器 语句 。 

o 然后 执行 TTeacher 特质 的 构造 需 语 句 。 

e 最 后 执行 PianoPlayer 特质 的 构造 器 语句 。 


classPianoTeacher extends Human with TTeacher with PianoPlayer 


运行 结果 如 图 2-11 所 示 。 新 建 PianoTeacher 3H tl, Æ PianoTeacher 多 重 继承 了 Hu- 
man 、TTeacher、PianoPlayer， 实 例 化 时 从 左 往 右 先 执行 Human 的 构造 器 语句 ， 打 印 输出 
Human; 然后 执行 TTeacher 特质 的 构造 嚣 语句， 打印 输 出 TTeacher; 接着 执行 PianoPlayer 特 
质 的 构造 器 语句 ， 打 印 输 出 PianoPlayer; 然后 调用 日 的 playPiano 方法 ， 打 印 输 出 1” m pla- 
ying piano 调用 tl 的 teach 方法 ， 打 印 输出 “IT? m training students. ”。 


园 Console 52 
<terminated> UseTrait$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 
Human 
TTeacher 
PianoPlayer 


I’m playing piano. 
I’m training students. 


图 2-11 多 重 继承 构造 器 执行 顺序 


AOP 实现 X 


AOP (Aspect Oriented Programming) 指 面向 切面 编程 ， 将 业务 逻辑 和 系统 服务 (如 日 志 
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事物 ) 进行 分 离 ，AOP 的 主要 功能 是 日 志 记 录 、 性 能 统计 、 安 全 控制 、 事 务 处 理 、 异 常 处 
理 等 。 在 Java 的 Spring 框架 的 AOP 得 到 了 大 量 应 用 。 

在 Scala F, AOP 的 设计 思想 可 以 使 用 特质 trait 来 实现 日 志 事 务 切面 的 功能 。 如 例 2-13 
所 示 。 定 义 Action 特质 ， 拥 有 doAction 抽象 方法 ; 定义 TBeforeAfter 特质 ， 继 承 Action 特质 ， 
然后 重 写 doAction 方法 ， 在 doAction 方法 中 调用 super. doAction 方法 来 实现 日 志 事 物 切面 的 
功能 ; 定义 class Work 类 继承 Action 特质 ， 重 写 了 doAction 方法 。 

【 例 2-13] Scala 使 用 特质 trait 来 实现 日 志 事务 切面 的 功能 示例 。 


1. package com. dt. scala. oop 

2. trait Action | /定义 Action 特质 

3: defdoAction /定义 doAction 抽象 方法 

4. | 

5.  traitTBeforeAfter extends Action | 

6. abstract override defdoAction | 

Ws println( " Initialization" ) 

8. super. doAction // 新 建 work 时 构造 打印 Working. . . 
9. println( " Destroyed" ) 

10. | 

11. } 

12. class Work extends Action | 

13. override def doAction = println( " Working. .. " ) 

14. | 

15. 

16. object UseTrait extends App | 

17. val work = new Work with TBeforeAfter 

18. work. doAction // 先 调用 TheforeAfter 的 doAction 方法 ,调用 父 类 的 doAction 打印 输出 
19. | 


运行 结果 如 图 2-12 所 示 。 新 建 一 个 Work 对象， 混和 人 TBeforeAfter 特质 ， 调 用 work WH 
的 doAction 方法 时 先 调 用 TbeforeAfter 的 doAction 方法 ， 打印 输出 Initialization ， 然 后 执行 
super 的 doAction 方法 ， 由 于 class Work 继承 了 Action 特质 ， 因 此 执行 super 的 doAction 方法 
时 候 重 载 执行 的 是 子 类 Work 的 doAction 方法 ， 打印 输出 Working...; 然后 接着 执行 
super. doAction 之 后 的 语句 println(" Destroyed"), ， 打 印 输出 Destroyed, TBeforeAfter 特质 相当 
于 进行 了 日 志 切 面 ， 可 以 在 Work 代码 中 加 载 自 己 的 日 志 处 理 信息 。 


[2] Problems | Tasks G) Console & 

<terminated> UseTrait$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 
Initialization 

Working... 

Destroyed 


图 2-12 AOP 代码 
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包 的 定义 、 包 对 象 、 包 的 引用 、 包 的 隐 式 引用 


a 


Scala 中 的 包 定义 和 Java 中 的 包 一 样 ， 用 于 管理 大 型 程序 的 命名 空间 。 将 程序 分 解 为 若 
干 比较 小 的 模块 ， 在 模块 的 内 部 工作 时 ， 只 需 和 模块 内 部 的 开发 交互 ， 在 模块 的 外 部 工作 
时 ， 才 需要 和 其 他 模块 的 开发 交互 。 包 的 定义 ,在 Scala 中 通常 保持 更 好 的 一 致 性 。 

例如 ， 定 义 一 个 包 ， 使 用 package 定义 包 spark. navigation， 在 包 spark. navigation 里 定义 
测试 的 包 package tests ， 用 于 单元 测试 ;同时 在 包 spark. navigation 里 定义 package impls， 用 
于 功能 的 实现 。 这 样 ， 测 试 与 实现 位 于 不 同 的 包 中 ， 结 构 清晰 。 


1 
2 
3 
4 
5. 
6 
7 
8 
9 


10. 


packagespark. navigation | 
abstract class Navigator | 
def act 
| 
package tests | /用 于 单元 测试 
class NavigatorSuite 


| 


package impls | /用 于 功能 实现 
class Action extends Navigator | 
def act = println( " Action" ) 
| 

| 

| 


在 Scala 中 使 用 关键 字 package object 定义 一 个 包 对 象 people， 在 包 对 象 中 定义 属于 包 的 
变量 和 方法 ， 这 样 在 package people 包 中 ，package people 包 里 面 的 类 可 以 直接 引用 包 对 象 中 


定义 的 变量 和 方法 。 
1. package object people | /定义 一 个 包 对 象 people 
2 valdefaultName = " Scala" /定义 属于 包 对 象 people 的 属性 defaultName 
Bu 
4. package people | 
5. class people | 
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6. var name = defaultName //package people 包 里 面 的 类 可 直接 引用 defaultName 


A 包 的 引用 


Scala 中 import 包 的 引用 比 Java 更 加 灵活 ， 体 现在 Scala 的 import 可 以 出 现在 任何 地 方 ， 
可 以 指 的 是 对 象 或 包 ， 能 重 命 名 或 隐藏 一 些 被 引用 的 成 员 。 


1. import Java. awt. | Color, Font} 

// 此 例 只 引用 对 象 Java. awt 的 Color 和 Font 成 员 
2. import Java. util. | HashMap => JavaHashMap | 

// 此 例 引 用 对 象 Java. util. HashMap 包 , 并 通过 => HashMap 起 个 别名 , 叫 JavaHashMap 
3. import Scala. | StringBuilder => _} 


将 包 Scala. StringBuilder 重 命名 为 “_”， 就 表示 要 将 StringBuilder 隐藏 ， 也 就 是 从 Scala 
引用 的 包 中 排除 StringBuilder， 避 免 出 现 混 消 。 


2.9.4 包 的 隐 式 引用 


Scala 程序 都 隐 式 地 以 如 下 代码 开始 ， 引 入 Java. lang 包 、Scala 包 ， 以 及 预定 义 包 Predef。 


1. import Java. lang. 。 //Java. lang 包 里 所 有 的 东西 
2. import Scala. _ //Scala 包 里 所 有 的 东西 
3. import Predef. _ //Predef 对 象 的 所 有 东西 


Ht}, Java. lang 包 里 面 是 标准 的 Java 类 ， 被 隐 式 地 包含 在 Scala 的 JVM 实现 中 。Scala 
包 里 面 是 标准 的 Scala 库 ， 包 括 许 多 通用 的 类 和 对 象 。Predef 对 象 包含 许多 Scala 程序 中 经 常 
用 到 的 类 型 、 方 法 、 和 隐 式 转换 的 定义 。 


包 、 类 、 对 象 、 成 员 、 伴 生 类 、 伴 生 对 和 象 访问 权限 


DW 包 、 类 、 对 象 、 成 员 访 问 权 限 


Scala 的 访问 修饰 符 可 以 通过 private [X], protected [X] 的 方式 来 表示 直达 X 里 面 的 
WARRI, EX 指 代 某 个 所 属 的 包 、 类 或 者 对 象 。 在 以 下 代码 中 ， 类 class Navigator 被 
标记 为 private [Spark] ， 类 Navigator 对 包含 在 Spark 包 里 的 所 有 类 和 对 象 可 见 。 那 么 ， 从 
object Vehicle 对 象 对 Navigator 的 访问 时 是 允许 的 ， 因 为 Vehicle 对 象 包含 在 包 package launch 
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里 ，package launch 包含 在 package Spark 里 面 ， 因 此 object Vehicle 对 象 可 以 访问 Navigator, 
限定 词 protected [X] 与 private 意思 相同 ， 即 类 里 的 protected [X] 修饰 符 允 许 类 的 所 
有 子 类 及 修饰 符 所 属 的 包 、 类 、 对 象 X 访问 带 有 此 标记 的 定义 。 如 useStarChart( ) 方法 能 被 
class Navigator 的 所 有 子 类 和 包含 在 navigation 的 所 有 代码 访问 。private [this] 要 求 比较 严 > 
格 ， 只 能 被 包含 定义 的 同一 个 对 象 访问 。 


See Ses clones A Roe ve 


package Spark { /定义 一 个 包 Spark 
package navigation| // 定 义 一 个 包 navigation 
private[ Spark] class Navigator| // 类 Navigator 对 包含 在 Spark 包 里 的 所 有 的 类 和 对 象 可 见 
protected[ navigation | def useStarChart( ) { } 
class LegOfJourney | 
private[ Navigator] val distance = 100 
} 
private| this | var speed = 200 


| 


. package launch | 


import navigation. _ 

object Vehicle | //object Vehicle 在 包 launch 中 , 包 launch 从 属于 Spark 包 , 因 此 这 里 
Vehicle 对 象 直接 创建 了 Navigator 对 象 , 因 为 Navigator 对 象 在 整个 Spark 
包 范 围 可 见 


private[ launch] val guide = new Navigator 


伴生 类 、 伴 生 对 象 访 问 权 限 


Scala 的 伴生 类 、 伴 生 对 象 可 以 相互 访问 ， 在 class PackageOps_Advanced 类 中 引入 包 im- 
port PackageOps_ Advanced. power， 在 之 后 的 canMakeltTrue 方法 中 就 可 以 直接 使 用 object 
PackageOps_Advanced 的 power 方法 。 


sy OS a gs 


classPackageOps_Advanced | 
importPackageOps_Advanced. power /引入 PackageOps_Advanced. power 方法 
private defcanMakeltTrue = power > 10001 /直接 调用 power 方法 ,如 没有 上 面 的 import 
引入 ,每 次 都 需要 使 用 PackageOps_Advanced. power 来 调用 power 


} 
object PackageOps_Advanced | 


private def power =10000 /定义 power 方法 
def makeltTrue(p;PackageOps_Advanced) ; Boolean = | 


8. val result = p. canMakeltTrue 
9. result 


2.11 小 结 


Scala 面向 对 象 编程 开发 基于 面向 对 象 的 设计 思想 ， 通 过 本 章 的 学 习 ， 读 者 将 掌握 类 、 
构造 器 、 继 承 、 抽 象 、 包 trait 等 相关 知识 。 本 章 提 供 了 相关 开发 的 源 代 码 ， 读 者 可 以 依照 
代码 多 进行 实践 练习 ， 相 信和 能 轻松 掌握 面向 对 象 的 编程 开发 知识 。 
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民 ”， 可 以 像 任 何其 他 数据 类 型 一 样 被 传递 和 操作 。 

本 章 对 Scala 高 阶 函 数 进行 举例 (包括 匿名 函数 、 偏 应 用 函数 、 闭 包 、SAM 转换 、Cur- 
ring KZO, VAS ii BT eK WE Spark 中 的 应 用 〈 词 频 统 计 分 析 ) ， 通 过 词 频 统 计 分 析 的 应 用 场 
景 ， 领 情 到 Scala 语言 的 价值 。 


匿名 函数 


在 Scala 语言 中 ， 不 需要 给 函数 命名 的 函数 称 为 匿名 函数 。 匿 名 函数 的 语法 构成 包含 括 
号 、 命 名 参数 列表 、 碳 箭头 及 函数 体 。 例 如 ， 定 义 一 个 匿名 函数 (*:Int) =>x+1; WEZ K 
数 将 它 的 值 加 上 数字 1; 在 Scala 中 ， 匿 名 函数 作为 函数 字面 量 可 以 赋值 给 变量 。 匿 名 天 数 
的 语法 构成 如 例 3-1 所 示 。 

【 例 3-1] Scala 匿名 函数 的 语法 构成 示例 。 


1. package com. dt. scala. hello 

2 objectFunctionOps | 

3 def main( args; Array[ String] ) | 

4 var increase = (x: Int) =>x +1 /匿名 函数 等 同 于 def increase(x;Int) =x +1 
Sp println( increase( 10) ) 

6 increase = ( x: Int) => x +9999 

7 val someNumbers = List( -11, -10, -5,0,5,10) 

8 someNumbers. foreach( (x:Int) => print(x) )//for 循环 依次 打印 输出 list 列表 中 的 元 素 
9. println 

10. someNumbers. filter( (x;Int) =>x >0). foreach( (x:Int) => print(x) ) 

11. println ”// 以 上 filter 函数 过 滤 掉 大 于 0 的 元 素 

12. someNumbers. filter( (x) =>x >0). foreach( (x;Int) => print(x) ) 

13. println 

14. someNumbers. filter( x =>x >0). foreach( (x:Int) => print(x) ) 

IS println 

16. someNumbers. filter( _ >0). foreach( (x:Int) => print(x) ) 

17. printhh ”以 上 .为 占 位 符 ,(_>0) 传 递 给 filter 函数 过 滤 掉 大 于 0 的 元 素 

18. valf=(_:Int) +(_:Int) /A(_:Int) + (_:Int) 表 示 两 个 参数 相 加 赋值 给 f 


语言 基础 与 开发 实战 


运行 结果 如 图 3-1 所 示 。 


Problems Tasks 国 Console & 
<terminated> FunctionOps$ (1) [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 


11 
-11-10-50510 


510 
510 
510 
510 
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偏 应 用 函数 


在 Scala 中 ， 偏 应 用 函数 (Partially Applied Function) 或 称 部 分 应 用 函数 是 一 种 表达 式 。 
在 函数 定义 中 ， 不 需要 提供 所 有 的 参数 ， 只 要 提供 一 部 分 参数 ， 或 者 不 提供 所 需 的 参数 ， 称 
为 偏 应 用 函数 。 偏 相对 全 而 言 ， 就 是 说 函数 的 参数 只 部 分 提供 。 

在 Scala 交互 式 命令 行 中 ， 先 定义 一 个 普通 函数 sam， 在 普通 函数 sum 中 传人 全 部 3 个 
参数 ， 调 用 函数 计算 出 运行 结果 ;而 偏 应 用 函数 (如 sum_、sum(1,_:Int,3)) 定义 时 不 需 
要 提供 所 有 的 参数 ， 调 用 时 传人 所 需 的 参数 进行 运算 。 普 通 函 数 sum 如 例 3-2 所 示 。 

【 例 3-2】 定 义 函 数 sum 示例 。 


1. Scala> def sum(a:Int,b:Int,c:Int)=a+b+ce 

2. scala > def sum(a:Int,b:Int,c:Int) =a +b +c //7E MPAA sum, 包 括 3 个 Int 参数 
3. sum:(a:Int,b:Int,c:Int)Int 

4. 

5. scala > sum(1,2,3) /传人 3 个 参数 

6. res4:Int=6 

ths 

8. scala > 


如 果 要 创建 sum 的 偏 应 用 函数 ， 不 需要 提供 sum 所 需 的 3 个 参数 ， 只 要 在 sum 之 后 写 
一 个 下 画 线 就 可 以 ，_ 是 占 位 符 ， 代 表 sum 函数 的 所 有 人 参数， 然后 将 sum 函数 赋值 给 变量 
fp_a, Wf] 3-3 所 示 。 

【 例 3-3) Scala 偏 应 用 函数 _ 占 位 符 示 例 。 


1. scala >val fp_a=sum_ //sum 是 一 个 偏 应 用 函数 ,为 占 位 符 , 代 表 函 数 的 参数 
2. fp_a;(Int,Int, Int) =>Int= <function3 >// 显 示 fp_a: 包 含 3 个 Int 参数 
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10. 


scala > fp_a(1,2,3) 人 /传人 参数 
res) ; Int =6 


scala > fp_a. apply(1,2,3) /执行 apply 方法 
res6 ; Int =6 


scala > 


其 中 ，sum_ 就 是 一 个 偏 应 用 函数 ， 将 sum IEA fp_a, 2a FR ABA CANS RK T F 
function3 ， 定 义 了 3 个 参数 的 apply 方法 ， 因 此 可 以 执行 fp_a. apply(1,2,3)， 使 用 apply 77 
法 计算 结果 为 6; 在 sum_ 的 示例 中 ，sum_ 没有 定义 任何 参数 ， 是 一 个 偏 应 用 函数 。 


sum(1, 


函数 。 如 例 


_:mt,3) 给 sum 函数 提供 部 分 参数 ， 没 有 提供 所 有 参数 的 函数 ， 也 是 一 个 偏 应 用 
3-4 所 示 。 


【 例 3-4】 Scala 偏 应 用 函数 apply 应 用 示例 。 


1. scala > val fp_b = sum(1,_:Int,3) // 偏 应 用 函数 传人 1,3 两 个 参数 ， 占 位 符 代表 需 传 人 的 
参数 

2. fp_b:Int=>Int= <functionl > 

3, 

4. scala >fp_b(2) /传人 一 个 参数 2 ,执行 函数 

5. res7:Int =6 

6. 

7. scala > fp_b. apply(10) //apply 方法 传人 一 个 参数 10 ,执行 函数 
8. res8: Int = 14 

9. 

10. scala > 


这 里 sum(1,_:Int,3) 是 一 个 偏 应 用 函数 ， 提 供 了 两 个 参数 1，3， 中 间 的 一 个 参数 用 占 


位 符 _ 替 代 ， 
一 个 参数 的 
(10) 的 计算 


将 suam(1，:mt,3 ) 赋 值 给 fpp_b， 编 译 需 生成 的 类 继承 了 特质 function1 ， 定 义 了 
apply 方法 ， 因 此 可 以 执行 fp_b(2), EM apply 方法 计算 结果 为 6; fp_b. apply 
结果 为 14。 


再 看 一 个 如 例 3-5 所 示 的 偏 应 用 函数 循环 打印 应 用 的 例子 。 首 先 定 义 一 个 list 列表 赋值 


给 变量 data， 通 过 foreach( println_) 打印 输出 变量 data 的 每 一 个 元 素 ，println_ 是 一 个 偏 应 用 


< 之 里 


函数 ， 没 有 提供 所 有 的 参数 列表 ， 且 正好 在 foreach 函数 运行 的 位 置 ， 甚 至 可 以 省 略 下 画 线 _， 


Scala > data. foreach (println) ， 能 实现 同样 的 效果 。 


【 例 3-5】 偏 应 用 函数 循环 打印 应 用 示例 。 


1 
之 
3, 
4 


scala > val data = List(1 ,2,3,4,5,6) 
data; List| Int | = List(1,2,3,4,5 ,6) 


scala > data. foreach( println_) 
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1 
2 
3 
4 
5 
6 
12. scala > data. foreach( println ) 
1 
2 
3 
16. 4 
5 
6 


20. scala > 


在 Scala IDE 中 ， 偏 应 用 函数 的 使 用 如 例 3-6 所 示 。 
【 例 3-6] Scala 偏 应 用 函数 在 Scala IDE 中 的 示例 。 


1. package com. dt. scala. function 

2. object PartialAppliedFuntion | 

3 def main( args : Array[ String] ) | 

4. def sum(a;Int,b;Int,c;Int) =a +b +c //7E X AŽ sum 

5. val fp_a = sum_//sum_ 是 偏 应 用 函数 

6 println(fp_a(1,2,3)) 

7 println(fp_a. apply(1,2,3)) ”//apply 方法 传人 3 个 参数 ,打印 计算 结果 
8 val fp_b =sum(1,_:;Int,3) 

9 println( fp_b(2) ) 


运行 结果 如 图 3-2 所 示 。 


a) Problems &) Tasks GJ Console % 

<terminated > PartialAppliedFuntion$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe 
6 

6 

6 


Bo 闭 包 


在 Scala 中 ， 任 何 带 有 自由 变量 的 函数 字面 量 ， 需 先 明 确 自由 变量 的 值 ， 只 有 在 关闭 这 


个 目 由 变量 开放 项 的 前 提 下 ， 哨 数 才 会 运行 计算 出 结果 ， 称 函数 为 闭 包 。 闭 包 由 代码 和 代码 


用 到 的 任何 非 局 部 变量 定义 构成 。 


在 Scala 交互 式 命令 行 中 ， 如 果 直 接 定 义 一 个 财 包 函数 (*:Imt) = >x +more, SHER more 
的 值 没有 找到 ; 需 先 定义 变量 more 的 值 ， 再 定义 闭 包 函数 (x:Int) = >x +more。 如 例 3-7 > 


所 示 。 

【 例 3-7】 Scala 闭 包 也 数 示例 。 
1. scala > (x:Int) =>x + more 
2 < Console > :8 .error: not found; value more 
3 (x:Int) =>x+more //A ERACE SCA Pa EE AER, UE h 
4 X 
5. scala > var more = 1 // 定 义 自由 变量 more 的 值 为 1 
6. more; Int =1 
7 
8. scala > (x:Int) =>x + more // E LIAL ES PRL 
9.  resl2:Int => Int = < function! > 
10. 
11. scala > 


将 (x:Int) = >x + more 赋值 给 变量 add， 当 自由 变量 more 变化 的 时 候 ，add (10) 也 随 
之 变化 。More =1, add =x +1, add(10) =11; More =9999, add =x +9999, add(10) = 


10009。 如 例 3-8 所 示 。 自 由 变量 more 变化 ， 值 也 发 生变 化 。 
【 例 3-8】Scala HE AZOR H 


scala > var more =1 /设置 自由 变量 more 的 值 为 1 


more; Int =1 


scala > val add = (x:Int) => x + more 


1 

2 

3 

4 

5. add:Int => Int = <functionl > 
6 

7. scala >add(10) 人 在 自由 变量 为 1 的 基础 上 加 上 10 ,计算 结果 为 11 

8. resl3:Int = 11 

9 

10. scala > more =9999 /设置 自由 变量 more 的 值 为 9999 

11. more; Int =9999 

12. 

13. scala >add(10) /在 自由 变量 为 9999 的 基础 上 加 上 10 ,计算 结果 为 10009 
14. res14: Int =10009 

15. 

16. scala > 


再 看 一 个 示例 : 定义 一 个 list 列表 ， 对 list 列表 中 的 元 素 求 和 。 先 定义 一 个 变 
过 foreach 语句 依次 对 sum 与 list 的 元 素 相 加 ， 计 算 结 果 随 着 sum 变化 。sum = 0， 


2 


HBH. 
量 sum, 


计算 结 
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果 求 和 为 21; sum =100， 计 算 结 果 求 和 为 121。 如 例 3-9 所 示 。 
【 例 3-9】Scala 闭 包 函数 list 列表 求 和 应 用 示例 。 


1 
2 
3 
4 
5. 
6 
y 
8 
9 


scala > val data = List(1 ,2,3,4,5,6) // 定 义 一 个 列表 data 
data; List| Int] = List(1,2,3,4,5,6) 


scala > var sum =0 /定义 自由 变量 sum 的 值 为 0 

sum:Int=0 

scala > data. foreach(sum +=_) /遍历 data 列表 ,在 0 的 基础 上 累加 列表 中 各 个 元 素 的 值 
scala > sum 


res17; Int =21 


scala > sum = 100 // 定 义 自由 变量 sum 的 值 为 100 


.sum:Int =100 


scala > data. foreach( sum +=_)// 遍 历 data 列表 ,在 100 的 基础 上 累加 列表 中 各 个 元 素 的 值 


scala > sum 
res19 ; Int = 121 


scala > 


| Section | 
SAM 转换 


SAM 的 全 称 是 Single Abstract Method, ， 即 单一 抽象 方法 。 在 Scala F, NR BER KRUN 
某 件 事 ， 可 以 传递 另 一 个 函数 参数 给 这 个 函数 。 而 在 Java 中 ， 并 不 支持 传送 函数 参数 ，Java 的 
实现 方式 是 将 动作 放 在 一 个 实现 某 接口 的 类 中 ， 然 后 将 该 类 的 一 个 实例 传递 给 另外 一 个 方法 。 


通常 这 些 接口 只 有 单个 抽象 方法 (Single Abstract Method), ， 在 Java 中 被 称 为 SAM 类 型 。 如 


Java 的 函数 接口 包含 了 单个 抽象 方法 ， 函 数 接口 也 为 Java 8 Lambda 表达 式 提 供 了 基础 。 

1. Java 的 实现 

Java 语言 中 swing 界面 开发 代码 示例 ， 在 单 击 界面 上 的 按钮 时 候 递 增 一 个 计数 器 。 如 
例 3-10 所 示 。 

【 例 3-10】Java 语言 中 swing 界面 开发 代码 示例 。 


SO go) SIN A ge SS 


package com. dt. scala. function 
importjavax. swing. JButton 

import java. awt. event. ActionListener 
import java. awt. event. ActionEvent 
importjavax. swing. JFrame 

object SAM | 

def main( args; Array String | ) | 

var data =0 


val frame = newJFrame("SAM Testing" ) ;val jButton = new JButton(" Counter" ) 


jButton. addActionListener( new ActionListener | 
override def actionPerformed( event; ActionEvent) | 


data +=1 


println( data)// 需 关注 的 核心 代码 ,打印 出 计数 器 的 值 ,其 他 代码 是 Java 的 样板 代码 S 


| 

H) 
frame. setContentPane(jButton ) ; 
frame. pack() ; 


frame. setVisible( true) ; 


| 
| 


这 些 Java 代码 中 包含 很 多 Java 语言 中 的 样板 代码 ， 例 如 : override def action Performed 
(event: ActionEvent) 等 。Java 代码 的 运行 结果 如 下 ， 每 次 单 击 界面 上 的 counter 按钮 ， 就 会 在 
Console 视图 总 数字 上 加 1， 运行 结果 如 图 3-3 所 示 。 单 击 界面 上 conuter 按钮 9 次 ，Console 
视图 打印 输出 计数 器 的 值 ， 依 次 显示 1 到 9。 


[2] Problems | Tasks GI Console % 
SAM$ [Scala Application] C:\Program Files\Java\jdk1.7.0_13\bin\javaw.exe ( 


Counter 


wan auppWn be 


Al3-3 Java 代码 的 运行 结果 


2. Scala 的 SAM 转换 
在 Scala 中 ， 更 多 地 关注 业务 逻辑 的 实现 ， 可 以 利用 一 个 隐 式 转换 ， 传 人 一 个 参数 给 

addActionListener， 在 addActionListener 中 将 计数 器 加 1。 如 例 3-11 所 示 。 
【 例 3-11) Scala 语言 中 swing 界面 开发 SAM 转换。 


Sl A A ESE 


= & 


package com. dt. scala. function 
importjavax. swing. JButton 
import java. awt. event. ActionListener 
import java. awt. event. ActionEvent 
importjavax. swing. JFrame 
object SAM | 
def main( args; Array| String | ) | 
var data =0 
val frame = newJFrame( "SAM Testing" ) ; 


val jButton = new JButton( "Counter" ) 


. implicit def converted Action( action; ( ActionEvent) => Unit) = 
12. 


new ActionListener | 
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override def actionPerformed( event; ActionEvent) | action(event) | 
| // 定 义 一 个 隐 式 转换 ,使 ActionEvent 的 参数 类 型 可 以 实现 隐 式 转换 ,新 建 一 个 事件 
监听 器 
jButton. addActionListener( ( event; ActionEvent) => | data +=1;println( data) | ) 


/匹配 事件 ,如 为 ActionEvent , 则 计数 器 加 1, 打印 输出 计数 器 


frame. setContentPane(jButton ) ;/ 


frame. pack( ); 

frame. setVisible( true ) ; 
| 

| 


Scala 中 SAM 代码 改造 以 后 ， 代 码 更 加 简洁 清晰 ， 同 样 实现 计 数 器 的 功能 ， 每 次 单 击 界 
面 上 的 counter 按钮 ， 就 会 在 Console 视图 总 数字 上 加 1。 


Curring 函数 


柯 里 化 函数 Curring， 函 数 的 名 称 是 以 科学 家 Haskell Brooks Curry 的 名 字 命名 的 ， 指 的 
是 将 原来 函数 中 接收 两 个 参数 的 传人 ， 将 两 个 参数 拆 开 ， 变 成 接收 第 一 个 参数 的 函数 ， 新 的 
函数 返回 一 个 以 原来 第 二 个 参数 为 参数 的 函数 。 

为 便于 理解 柯 里 化 函数 ， 先 列举 一 个 未 被 柯 里 化 的 函数 multiple， 它 实现 对 两 个 参数 x 
MI y 做 乘法 ; 然后 列举 一 个 multipleOne 函数 ， 显 示 柯 里 化 的 过 程 ， 这 个 函数 实际 调用 了 两 
个 函数 ， 第 一 个 函数 调用 带 有 单个 参数 *， 并 返回 给 第 二 个 函数 的 函数 值 ， 然 后 匿名 函数 
(y:Int) = >xx#xy 带 有 int 类 型 参数 y， 计 算出 x 与 乘积 ; 最 后 我 们 将 multiple 函数 柯 里 化 ， 
生成 柯 里 化 的 同一 个 函数 curring(x:Int) (y:Int)， 应 用 于 这 个 函数 两 个 列表 的 各 自 的 一 个 


参数 。 


在 Scala 交互 式 命 令 行 中 定义 一 个 函数 multiple, multiple 了 水 数 没有 被 柯 里 化 ， 函 数 对 两 
个 int 类 型 参数 x，y 做 乘法 ， 计 算 println( multiple(6,7) ) 为 42。 如 例 3-12 所 示 。 
[6] 3-12] Scala EM multiple 函数 示例 。 


a ae 


scala > def multiple(x;Int,y;Int) =x * y /定义 一 个 普通 函数 multiple, A MA Int BR x,y 
multiple:(x:Int,y:Int)Int 


scala > println( multiple(6 ,7) ) 
42 


相对 应 ， 将 函数 multiple 进行 改造 ， 函 数 multipleOne 先 接 收 一 个 参数 ， 然 后 生成 另 一 个 
接收 单个 参数 的 函数 ， 计 算出 printtn(multipleone(6)(7) 的 指 为 42。 如 例 3-13 所 示 。 
【 例 3-13] Scala 定义 multipleOne 函数 示例 。 


1. 


scala > defmultipleOne(x;Int) =(y:Int) =>x * y// KZ multipleOne 先 接收 一 个 参数 x, 然 后 
生成 另 一 个 接收 参数 y 的 函数 ,(y:Int) =>x*xy 也 可 理解 为 一 个 匿名 函数 


2.  multipleOne; (x; Int) Int => Int 
3. scala > println( multipleOne(6) (7) ) 
42 


Scala 可 以 将 multiple 函数 进行 柯 里 化 改造 ， 将 两 个 参数 分 别传 人 计算 ，printtn ( curring © 
(10) (10) ) 计 算出 结果 为 100, def curring(x:Int)(y:Int) =x * y 就 是 柯 里 化 函数 。 如 例 3-14 
所 示 。 

【 例 3-14】 Scala 柯 里 化 函数 定义 示例 。 


scala > def curring(x:Int)(y:Int) =x*y// 定 义 柯 里 化 函数 curring, 各 自传 入 一 个 参数 
curring: (x;Int) (y:Int)Int 


100 


1 
2 
3. scala > println( curring( 10) (10) ) 
4 
5. scala > 


Scala 具有 的 强大 的 类 型 推断 功能 ， 使 用 柯 里 化 函数 ，Scala 根据 第 一 个 参数 的 类 型 ， 推 
导出 第 二 个 参数 的 类 型 ， 从 而 进行 4 与 b 的 比较 ， 如 下 所 示 : 


1. val a = Array(" Hello" ," Spark" ) 
Ds val b = Array(" hello" ," Spark" ) 
3. println(a. corresponds(b) (_. equalsIgnoreCase(_) ) ) 


这 里 corresponds(b) (_. equalslgnoreCase(_) ) 中 corresponds 是 一 个 柯 里 化 函数 ， 传 人 
一 个 参数 b， 然 后 再 传 给 另 一 个 参数 _. equalsIgnoreCase(_) ; 类 型 推断 器 可 以 推断 出 b 的 类 
型 ， 然 后 利用 这 个 信息 来 分 析 传 人 p:(A,B) = > Boolean 的 函数 。 


1. def corresponds[ B | ( that: GenSeq[ B] ) (p: (A,B) => Boolean) ; Boolean = | 
2 val i = this. iterator 

3 val j = that. iterator 

4 while(i. hasNext && j. hasNext) 
5. if(! p(i next() ,j. next() ) ) 
6 return false 

7 ! i. hasNext && ! j. hasNext // 此 段 代 码 源 自 Scala 的 源 代 码 , corresponds 柯 里 化 函数 
So i 


EA 6 | 高 阶 函 数 


在 数学 和 计算 机 科学 中 ， 高 阶 函 数 是 至 少 满足 下 列 一 个 条 件 的 函数 ， 搂 受 一 个 或 多 个 
数 作为 输入 ; 一 个 函数 。 在 Scala 语言 中 ， 函 数 就 等 同 于 一 个 变量 ， 可 以 把 函数 作为 一 
个 参数 去 传递 给 一 个 函数 。 

在 Scala IDE a Gere WorkSheet, E WorkSheet 中 进行 高 阶 函 数 的 分 析 。 


语言 基础 与 开发 实战 


1. map 函数 
map PRIA: 定义 一 个 转换 , 将 转换 遍历 应 用 到 列表 的 每 个 元 素 ， 返 回 一 个 新 列表 集 。 如 
例 3-15 所 示 。 


【 例 3-15] map 函数 示例 。 


1. (1 to9). map(" *" *_). foreach( println_) 
2. //(1 to 9) 产 生 一 个 1 到 9 的 集合 1,2,3,…,9 
3. // ii BY RAK map 方法 将 一 个 函数 (" *" *_) 应 用 到 1 到 9 集合 的 所 有 元 素 并 返回 结果 
4. /A(" a" ss) 第 一 次 一 个 * ,第 二 次 两 个 * ,以 此 类 推 
5. //foreach( println_) 打 印 输 出 每 一 行 值 
执行 结果 如 下 : 
1. (1 to9). map(" *" *_). foreach( println_) // > * 
2 //| ** 
3 //| 2% 
4 FEAET E 
5. PAN DERRE 
6 J / | 水 米 米 米 炒米 
F LN AEREE 
8 //| 沙洲 米 炒米 米 沙洲 
9 LIV EREEREER 


2. filter 函数 
filter 函数 : 保留 列表 中 符合 条 件 的 列表 元 素 。 如 例 3-16 所 示 。 
{ Bi 3-16) filter 函数 示例 。 


1. (1 to9). filter(_% 2==0) . foreach( println) 
2. [lio9) 产 生 一 个 1 到 9 的 集合 1,2,3,…,9 
3. /高 阶 函 数 filter 方法 将 一 个 函数 (_% 2 ==0) 应 用 到 1 到 9 集合, 过滤 取出 偶数 集合 
4. //foreach 打印 输出 每 一 行 值 
执行 结果 如 下 : 
1. (1 to 9). filter(_% 2 ==0). foreach( println) I SD 
Ds J/\4 
3. //\ 6 
4. //\ 8 


3. reduceLeft 函数 
reduceLeft RA: 从 列表 的 左边 往 右边 应 用 reduce 函数 。 如 例 3-17 所 示 。 
【 例 3-17 】 reduceLeft 函数 示例 。 


1. println( (1 to 9). reduceLeft(_ * _) ) 


//reduceLeft 是 一 个 函数 ,拥有 两 个 参数 ,将 函数 应 用 到 集合 序列 的 所 有 元 素 ,顺序 从 左 向 


站 
3. 右 ,1 *2#*3#*4*5*6*7#*8*9 计算 得 出 362880 
执行 结果 如 下 : 


println( (1 to 9). reduceLeft(_ * _) ) 


4. split, sortWith 函数 
split 函数 : 将 字符 串 根 据 指定 的 表达 式 规则 进行 拆 分 。 
如 例 3-18 所 示 。 

【 例 3-18】 split, sortWith 图 数 示例 。 


// >362880 


1. "Spark is the most exciting thing happening in big data today". split( "" ). 
2. sortWith(_. length <_. length). foreach( println) 
3. //rE ML — FFF A :" Spark is the most exciting thing happening in big data today" 
4. //split 函数 将 整 串 字 符 串 按 空格 符 分 割 成 单个 词 集合 
5. //sortWith 函数 将 (_. length < _. length) 函数 应 用 于 词 集合 , 比较 每 个 单词 的 长 度 ,并 排序 
6. //foreach( println) 打印 输出 
执行 结果 如 下 : 
1. "Spark is the most exciting thing happening in big data today". 
2. split(" "). sortWith(_. length <_. length). foreach( println ) 
3. 
4. // >is 
5. //\ in 
6. //\ the 
‘a Ail big 
8. //| most 
9. //\ data 
10. //\ Spark 
ill. //\ thing 
12. //\ today 
13. //\ exciting 
14. //\ happening 


5. BEX EMA 

自 定 义 一 个 高 阶 函 数 high_order_functions(f:(Double) => Double) ， 传 人 不 同 的 函数 计算 
出 不 同 的 数值 。 如 例 3-19 所 示 。 

[Bi 3-19) 自 定义 高 阶 函数 示例 。 


1. 


def high_order_functions(f; (Double) => Double) = 


£(0. 25 ) 


执行 


语言 基础 与 开发 实战 


2: // 定 义 一 个 高 阶 函 数 high_order_functions( f: ( Double) => Double) ,其 中 f:(Double) = 
Double 是 匿名 函数 ,f(0. 25 ) 函数 的 参数 值 传人 0. 25 

3. println( high_order functions( ceil_) ) 

4. // 打 印 输 出 ,调用 高 阶 函数 high_order_functions ( ceil_) , ceil_ 是 偏 应 用 函数 ,传人 0. 25 参数 
值 ,ceil(0.25) 向 上 取 整 计算 出 值 为 1.0 

5. println( high_order_functions( sqrt_) ) 

6. /打印 输出 ,调用 高 阶 函 数 high_order_functions( sqrt_) ,sqrt_ 是 偏 应 用 函数 , 传 入 0.25 

参数 值 ,sqrt(0. 25 ) 开 方 根 计 算出 值 为 0.5 
结果 如 下 : 

1. import scala. math. _ 

2. def high_order_functions(f; (Double) => Double) = f(0. 25 ) 

3. // > high_order_functions ; (f; Double = > Double) Double 

4. println( high_order_functions( ceil_) ) // >1.0 

5. println( high_order_functions( sqrt_) ) // >0.5 


自 定 义 高 阶 函 数 high_order_functions(f; (Double) => Double) ， 传 人 匿名 函数 参数 计算 数 
值 ， 如 例 3-20 所 示 。 
【 例 3-20】 自 定义 高 阶 画 数 传人 匿名 函数 示例 。 


执行 


1. defmulBy(factor:Double) = (x;Double) => factor * x 

2. val quintuple = mulBy(5) // 先 传人 一 个 变量 值 ,函数 定 

SAS *X 

3. println( quintuple( 20 ) ) // 再 计算 5 * 20 的 值 计 算 结 

果 为 100 

4. println(high_order_functions( (x:Double) =>3 * x) ) 

5. //FTEV THY, JAPA Yeh Be high_order_functions( (x;Double) =>3 * x) ) ,(x:Double) =>3 * 
x) 是 匿名 函数 ,传人 0. 25 参数 值 3 * x 计算 出 值 为 0.75 

6. high_order_functions( (x) =>3 * x) 

7. high_order_functions( x =>3 * x) 

8. printIn( high_order_functions (3 * _) ) // 匿 名 函数 只 传 一 个 参数 时 

修 的 简写 写法 

9. val fun2 =3 * (_:Double) 人/ 通过 _ 占 位 符 的 简写 写法 ， 

标识 出 变量 的 Double 类 型 

10. val fun3 : ( Double) => Double =3 * _ // 通 过 _ 占 位 符 的 简写 写法 ， 
fun3 返回 Double 类 型 

结果 如 下 : 

1. defmulBy (factor; Double) = (x: Double) => factor * x 

De // > mulBy: (factor; Double ) Double => Double 

3. val quintuple = mulBy(5 ) // > quintuple :Double => Double = < function! > 


4. println( quintuple(20) ) // > 100. 0 

Si println( high_order_functions( (x: Double) =>3 * x) ) 

6. // >0.75 

Th high_order_functions( (x) =>3 * x) // > res0 : Double =0. 75 © 
8. high_order_functions(x =>3 * x) // >resl:Double =0. 75 

9. println( high_order_functions(3 *_)) // >0.75 

10. val fun2 =3 * (_:; Double) // >fun2 :Double => Double = < function! > 

11. val fun3 ; (Double) => Double =3 * _ // >fun3 :Double => Double = < function! > 
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我 们 在 Spark 中 分 析 一 个 WordCount 词 频 统计 的 例子 ， 对 HDFS 中 的 README. txt 文件 
进行 单词 数 统计 。Linux 操作 系统 中 启动 Hadoop 集群 ， 然 后 启动 Spark 集群 。 在 spark - shell 
系统 的 Scala 解释 器 交互 式 shell 中 使 用 高 阶 函 数 来 进行 词 频 统计 。 

1. HDFS 文件 系统 准备 文本 文件 

从 虚拟 机 Linux 系统 上 传 到 HadoopHDFS 文件 系统 的 文本 文件 README. txt， 可 以 通过 
hdfs; //master;9000/README. txt 方式 查看 ， 提 供 Spark 词 频 分 析 使 用 。 
输入 # hadoop fs -cat hdfs;//master;9000/README. txt, 4 F: 


[ root@ master mapreduce |#hadoop fs — cat hdfs://master:9000/ README. txt 


在 HDFS 文件 系统 中 查看 README. txt 文件 。 


[ root@ master mapreduce ] #hadoop fs — cat hdfs://master:9000/ README. txt 
16/01/24 02:47:46 WARN util. NativeCodeLoader: Unable to load native — hadoop library for your plat- 
form... using builtin — java classes where applicable 
For the latest information aboutHadoop, please visit our website at: 
http: //hadoop. apache. org/core/ 
and ourwiki, at; 
http: //wiki. apache. org/hadoop/ 
This distribution includes cryptographic software. The country in 
which you currently reside may have restrictions on the import, 


possession, use ,and/or re — export to another country , of 


2. 从 Hadoop HDFS 中 读 取 文件 
在 spark - shell 系统 的 Scala 交互 式 命 令 行 中 ， 定 义 一 个 Spark 的 RDD 集 ， 用 于 读 取 
HDFS 文件 系统 的 文本 文件 ， 输 入 : 


Scala > val rddl = sc. textFile( " hdfs://master:9000/ README. txt" ) 
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读 取 README. txt 文本 文件 以 后 返回 结果 是 MapPartitionsRDD 。 


scala > valrddl = sc. textFile( " hdfs;// master: 9000/ README. txt" ) 


16/01/24 02:52:43 WARN util. SizeEstimator: Failed to check whether UseCompressedOops is set; as- 


suming yes 


16/01/24 02:52:43 INFO storage. MemoryStore: Block broadcast_0 stored as values in memory ( esti- 


mated size 56. 6 KB, free 56. 6 KB) 


16/01/24 02:52:44 INFO storage. MemoryStore: Block broadcast_O_pieceO stored as bytes in memory 


(estimated size 19.5 KB, free 76. 1 KB) 

16/01/24 02:52:44 INFO storage. BlockManagerInfo: Added broadcast_0_pieceO in memory on 
host:41372( size:19. 5 KB ,free:517.4 MB) 

16/01/24 02:52:44 INFO spark. SparkContext: Created broadcast 0 from textFile at < Console > 


local- 


:27 


rddl :org. apache. spark. rdd. RDD[ String] = MapPartitionsRDD| 1 ] at textFile at < Console > :27 


scala > 


3. 在 Spark 中 进行 WordCount 词 频 统计 


在 spark - shell 系统 的 Scala 交互 式 命令 行 中 ， 通 过 rddl. flatMap (_. split(" ")). map 
P 


((_,1)). reduceByKey(_+_). collect 一 行 Scala 语句 进行 词 频 统计 ， 然 后 定义 一 个 val 变量 


result， 接 收 词 频 统 计 分 析 的 结果 。 
这 里 使 用 到 了 Scala 的 高 阶 函 数 ， 如 例 3-21 所 示 。 
【 例 3-21】 Scala FBT eK BCE Spark 中 的 使 用 示例 。 


1. val result =rddl. flatMap(_. split("")).map((_,1)).reduceByKey(_+_).collect 


ah 


2. // rddl 是 从 se 的 Spark 上 下 文 环境 中 读 取 文本 文件 " HDFS ://Master :9000/README. txt" 


返回 的 rdd 数据 集 ; 
3. //flatMap 和 map 类 似 , 对 列表 的 每 一 个 元 素 调 用 该 方法 ,然后 连接 所 有 方法 的 结果 并 
flatMap 是 高 阶 函数 ,传人 函数 参数 _. split(" " ) , 即 把 文本 文件 按 空格 分 隔 ,形成 单个 向 


返回 。 
nial 


列表 集 。 

4. //map 高 阶 函 数 ,形成 对 侦 (_,1) ,统计 单词 计数 
// reduceByKey( _+_) 高 阶 函数 ,根据 key 值 汇总 统计 累加 
// collect 形成 集合 


Spark 通过 rdd1. flatmap(_. split(" ") ). map((_,1) ). reduceByKey(_ +_). collect 这 行 语 


名 轻松 进行 了 词 频 统 计 分 析 ， 计 算出 的 result 结果 如 下 所 示 : 


scala > rddl. flatMap(_. split(" ") ). map((_,1)). reduceByKey(_+_). collect 
16/01/24 02:57:04 INFO spark. SparkContext: Starting job: collect at < Console > :30 


16/01/24 02:57:04 INFO scheduler. DAGScheduler; Registering RDD 6( map at < Console > :30) 


16/01/24 02:57:04 INFO scheduler. DAGScheduler; Got job 1 (collect at < Console > :30) with 


put partitions 


1 out- 


16/01/24 02:57:04 INFO scheduler. DAGScheduler; Final stage; ResultStage 3 (collect at < Console 


> :30) 


Scala 高 阶 函 数 


16/01/24 02:57:04 INFO scheduler. DAGScheduler; Parents of final stage:List(ShuffleMapStage 2 ) 

16/01/24 02:57:04 INFO scheduler. DAGScheduler; Missing parents ; List( ShuffleMapStage 2 ) 

16/01/24 02:57:04 INFO scheduler. TaskSchedulerlmpl; Removed TaskSet 3.0, whose tasks have all > 
completed , from pool 

res2 ; Array[ (String, Int) | = Array( ( Hadoop, 1 ) , ( Commodity , 1 ) , ( For, 1 ) , (this,3) , (country,1), 
(under, 1), (it, 1), (The, 4), (Jetty, 1), (Software, 2 ), ( Technology, 1), ( < http:// 
www. wassenaar. org/ > ,1) ,(have,1) , ( http://wiki. apache. org/hadoop/,1) , (BIS, 1 ) , (classified , 
1) ,(This,1) , (following,1) , (which ,2) , (security, 1) , (See,1) , (encryption ,3) ,( Number, 1 ) , ( ex- 
port, 1), (reside,1) , (for,3) , (( BIS),,1), Cany,1), (at: ,2), (software,2) , (makes, 1) , (algo- 
rithms. ,1 ) , (re — export, 2) , (latest, 1) , (your, 1), ( SSL, 1 ) , ( the, 8 ) , ( Administration, 1 ) , ( in- 
cludes ,2) ,( import, ,2) , (provides, 1) , ( Unrestricted, 1) , ( country’ s,1), (if,1) , (740. 13) ,1), 


(Commerce, ,1) , (country, ,1), (software. ,2 ) , (concerning, 1) , (laws, , 1 ) , (source, 1) , ( posses- 


sion, ,2) ,( Apache,1) ,(our,2) , (written,1) ,(as,1) , (License ,1) ,(regulations,. . . 
scala > 


3.8 4 


函数 式 编程 及 链 式 表达 式 是 Scala 的 独特 魅力 ， 本 章 通 过 Spark 中 WordCount 词 频 统 计 


的 应 用 案例 ， 揭 示 了 Scala 高 阶 函 数 开 发 的 简练 、 优 雅 的 表达 ， 值 得 读者 多 加 学 习 。 


PR 


本 篇 内 容 是 前 一 篇 内 容 的 延续 ， 即 Scala 中 级 篇 构建 在 Scala 基础 篇 之 上 ,是 
为 了 在 领会 Scala 基础 之 后 ， 进 一 步 深 入 学 习 Scala 语言 ， 加 深 对 Scala 语言 中 比较 
复杂 的 知识 点 的 理解 。 在 Scada 中 级 篇 中 ， 主 要 内 容 包括 Scala 的 语法 亮点 一 一 模 
式 匹 配 、Scala 提供 的 集合 类 库 两 大 部 分 。 


第 4 章 Scala 模式 匹配 


42% Scala 模式 匹配 2 


模式 匹配 是 Scala 语言 引入 的 一 项 重要 语法 ， 它 是 学 习 Scala 函数 式 编 程 的 必 备 技能 。 
模式 匹配 在 Scala 语言 中 无 处 不 在 ， 学 习 模 式 匹 配 应 该 掌握 为 什么 要 用 模式 匹配 、 模 式 匹 配 
的 类 型 、 模 式 匹 配 的 作用 原理 等 ， 本 章 将 对 这 部 分 内 容 进行 详细 介绍 。 


模式 匹配 简介 


Scala 语言 中 的 模式 匹配 可 以 看 作 是 对 Java 语言 中 switch 语句 的 改进 ,但 与 Java switch if 
名 中 只 能 使 用 Java 的 原生 类 型 或 枚 举 类 型 不 同 的 是 ，Scala 语言 可 以 处 理 更 复杂 的 数据 类 型 ， 
如 String、 类 、 变 量 、 和 常量、 构造 右 及 其 他 复杂 类 型 等 。 为 加 深 对 Scala 模式 匹配 的 理解 ， 先 来 
看 一 个 Java switch 语句 的 例子 ， 如 例 4-1 所 示 。 代 码 中 的 case 50; System. out. println( "50" ) ; 
后 面 未 加 break 语句 ， 此 时 便 会 意外 掉 入 case 80:System. out. println ("80"); 这 一 分 支 ， 在 变 
量 i 值 为 50 时 ， 除 执行 System. out. println ( "50" ) 外 还 会 执行 System. out. println("80" ) 。 

【 例 4-1】 Java switch 语句 示例 。 


1. /A 下面 的 代码 演示 了 Java 中 switch 语句 的 使 用 

2. public classSwitchDemo | 

By public static void main( String[ | args) | 

4. for(int i=0; i < 100; i++) | 

Se switch (i) | 

6. case 10;System. out. println( "10" ) ; 
Is break ; 

8. // 在 实际 编码 时 ,程序 员 很 容易 忽略 break 语句 
9. // 这 容易 导致 意外 掉 人 另外 一 个 分 支 
10. case 50; System. out. println( "50" ) ; 
11. // break ; 

12. case 80; System. out. println( "80" ) ; 
13. default ; 

14. break ; 

15. } 

16. } 

17. } 

18. } 
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10 
50 
80 
80 


可 以 看 到 80 被 输出 两 次 ， 原 因 是 第 11 行 代码 没有 加 break 语句 ， 导 致意 外 掉 入 男 一 个 分 支 ， 
显然 这 跟 预 期 不 符合 ，Scala 中 的 模式 匹配 可 以 解决 这 一 问题 ， 如 例 4-2 所 示 。 使 用 Scala 的 模式 
匹配 可 以 避免 Java 语言 中 的 switch 语句 导致 意外 陷入 分 支 的 情况 ， 保 证 程序 逻辑 的 正确 。 

【 例 4-2】 Scala 模式 匹配 替代 Java switch 语句 示例 。 


1. objectPatternMatching extends App | 
2 for(i < — 1 to 100) | 

3 i match | 

4 case 10 => println( 10) 

5 case 50 => println (50) 

6 case 80 => println(80) 

y 

8 

9 


case _ => 


10. } 


上 述 代码 执行 结果 输出 如 下 : 


10 
50 
80 


例 4-2 中 第 3 ~8 行 演 示 了 Scala 模式 匹配 的 用 法 match 关键 字 前 面 为 待 匹 配 变量 ， 后 
面 1 上 中 的 内 容 为 对 应 匹配 情况 ， 例 如 第 4 íT case 10 => printmn(10) 表 示 如 果 变 量 ; 值 为 
10， 则 匹配 成 功 ， 匹 配 成 功 后 执行 => 右边 的 语句 printim(10) 。 从 代码 执行 结果 可 以 看 到 
Scala 模式 匹配 可 以 避免 Java switch 语句 中 意外 掉 入 另外 一 个 分 支 的 情况 。 不 难看 出 ，Scala 
模式 匹配 语法 非常 简洁 ， 而 且 比 Java switch 语句 更 为 灵活 ， 其 基本 语法 格式 如 下 : 


//x 表示 待 匹 配 变量 
x match | 

//y1 表示 匹配 内 容 
case yl =>// 语 句 
// 还 可 加 站 守卫 条 件 
case y2 if (...) =>// 语 名 


/下 画 线 _ 表 示 ,匹配 其 他 内 容 
// 放 在 最 后 ,类 似 于 Java 中 的 default 


case _ =>// 语 句 
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Scala 模式 匹配 中 的 case 语句 还 可 以 加 站 守卫 条 件 ， 如 例 4-3 所 示 。 与 普通 的 模式 匹配 
中 的 case 语句 不 同 ，Scala 中 的 case 语句 还 可 以 通过 case_if(i%4 ==0) 这 种 带 守 卫 的 方式 ， 
对 变量 的 值 进 行 判 断 。 
【 例 4-3】 带 守卫 条 件 的 模式 匹配 示例 。 > 


objectPatternMatching extends App | 
for(i < -1 to 10) f 
i match | 


case 1 => println(i) 


case 8 => println(i) 
// 增 加 让 守卫 条 件 
case _ if(i%4 ==0) =>printIn(i+": 


1 
2 
3 
4 
Si case 5 => println (i) 
6 
7 
8 
9 


case _ if(i%3 ==0) => println(i + 
10. case _ => 
11. } 
12. } 
13. } 


代码 执行 结果 如 下 : 


Ney tes) “Ww CN l 


例 4-3 中 ,第 7 ~10 行 代码 演示 了 如 何在 模式 匹配 中 增加 守卫 条 件 ， 例 如 第 8 行 代码 
case_if(i%4 ==0) => println (i +" :能 被 4 整除 " ) 表 示 第 4 ~6 行 代码 都 没有 匹配 成 功 的 情况 
下 ,i 如 果 能 被 4 整除 ， 则 执行 println(i+" :能 被 4 整除 " ) 语 句 。 


模式 匹配 类 型 


相 比 于 Java 中 的 switch 语句 ，Scala 模式 匹配 除了 匹配 原生 类 型 之 外 ， 还 可 以 匹配 更 多 
的 复杂 类 型 ， 根 据 匹 配 类 型 的 不 同 ， 可 以 将 模式 匹配 分 为 常量 模式 、 变 量 模式 、 构 造 带 模 
式 、 序 列 (Sequence) 模式 、 元 组 (Tuple) 模式 及 变量 绑 定 模式 等 。 下 面 对 几 种 常用 的 模 
式 匹 配 类 型 分 别 进 行 介 绍 。 
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4.2.1 


常量 模式 ， 顾 名 思 义 就 是 在 模式 匹配 中 匹配 常量 ， 如 例 4-4 所 示 。 和 常量 模式 指 的 是 case 
后 面 接 5、true 、“test”、null 等 这 样 的 Scala 常量 。 
【 例 4-4】 常量 模式 匹配 示例 。 


objectConstantPattern | 
def main( args; Array[ String] ) :Unit = | 
// 模 式 匹 配 结果 作为 函数 返回 值 


1 

2 

3 

4 defpatternShow (x: Any) =x match | 
3 case 5 =>" F" 

6 case true =>" FL" 

7 case "test" => " FIFE" 

8 case null =>" null 值 " 

9 case Nil =>" 空 列表 " 


10. case_ =>" 其 他 常量 " 
11. | 
12. println( patternShow( 5 ) ) 
13, println( patternShow( true) ) 
14. println( patternShow( List( ) ) ) 
15. } 
16. | 

代码 执行 结果 如 下 : 
五 
真 
空 列 表 


如 代码 所 示 ，PpatternShow($) 、patternShow(true) 、patternShow( List( ) ) 分 别 匹配 case 5, 
case true, case Nil。 例 4-4 F, 第 4~11 行 代码 定义 了 一 个 函数 patternShow(x:Any) ， 它 可 
以 接受 任意 类 型 的 参数 且 利 用 模式 匹配 结果 作为 函数 的 返回 值 ， 第 5 ~ 10 行 代码 case 语句 
后 面 全 部 是 常量 。 需 要 注意 的 是 函数 patternShow 定义 在 main 函数 中 ， 而 将 一 个 函数 定义 在 
另外 一 个 函数 中 ， 这 在 Scala 语言 中 是 合法 的 。 


变量 模式 是 Scala 模式 匹配 最 为 常用 的 一 种 匹配 方式 ， 用 于 匹配 任意 类 型 的 对 象 ， 其 使 
用 示例 如 例 4-5 所 示 。 变 量 模式 批 的 是 case 语句 后 面 接 的 是 Scala 变量 ， 如 case x if(x == 
5) =>x 等 ， 在 使 用 时 一 般 会 加 守卫 条 件 ， 当 然 也 可 以 像 case x =>x 这 样 使 用 ， 它 会 匹配 任 
何 输入 的 合法 变量 。 
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【 例 4-5】 变量 模式 匹配 示例 。 


1. objectVariablePattern | 
2 def main( args; Array[ String | ) ; Unit = | 
3 defpatternShow(x;Any) =x match | S 
4 case x if(x==5) =>x 
5. case x if(x =="Scala") =>x 
6 case _ => 
7 } 
8 println( patternShow(5 ) ) 
9. println( patternShow( "Scala" ) ) 
10. } 
lil} 
执行 返回 结果 如 下 : 
5 
Scala 


如 代码 执行 结果 所 示 ，PpatternShow($) , patternShow ( " Scala" ) 分 别 满足 模式 匹配 的 


case x if(x = 


=5), case x if(x =="Scala") 。 例 4-5 中 ,第 3 ~7 行 代码 同样 定义 了 一 个 pat- 


ternShow KAC, Sy RAVE BCA TAYE, case 后 面 跟 的 是 变量 且 对 变 a oF, 
用 于 处 理 不 同 的 变量 值 ， 例 如 第 4 行 代码 case x if(x ==5) =>x 表示 匹配 变量 x 且 内 容 为 5 
的 情况 ， 如 果 写 成 case x =>x 则 会 匹配 任何 内 容 。 


”构造 器 模式 


构造 器 模式 指 的 是 直接 在 case 语句 后 面 接 类 构造 器 ， 匹 配 的 内 容 放置 在 构造 器 参数 中 。 
构造 器 模式 功能 十 分 强大 ， 经 常 与 Case Class 一 起 搭配 使 用 ， 此 知识 会 在 4. 3 小 节 中 详细 讲 


解 ， 在 此 先 看 一 个 构造 融 模 式 匹配 的 例子 ， 如 例 4-6 所 示 。 构 造 器 模式 指 的 是 模式 匹配 时 


使 用 类 的 构造 函数 名 ， 例 如 类 被 定义 为 case class Person( name:String,age:Int)， 则 使 用 case 
Person (name, age) 进行 模式 匹配 ， 模 式 Person ( name , age) 4928 #4 ii PAA Person (name; String, 
age:Imt) 是 对 应 的 。 

【 例 4-6】 构 造 器 模式 匹配 示例 。 


1 
2 
3h, 
4. 
5 
6 
J 


// 将 Person 类 定义 为 case class 
case class Person( name: String, age : Int ) 
objectConstructorPattern | 
def main( args: Array| String | ) : Unit = | 
val p = new Person( "nyz" ,27) 
defconstructorPattern( p : Person) =p match | 


// 构 造 器 模式 必须 将 Person 类 定义 为 case class ,否则 需要 自己 定义 介 


EAE xt AIF SC BL un- 


上 
h 


apply 方法 ,否则 会 报 not found; value person 错误 
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" " 


8. case Person(name,age) => "name =" +name+" ,age=" +age 


" 


9. //case Person(_,age) =>"age =" + age 
10. case _ =>" Other" 
11. } 


13. println( constructorPattern(p) ) 
14. | 
iS, | 


执行 结果 如 下 : 
name = nyz,age =27 


如 代码 运行 结果 所 示 constructorPattern( p) 的 参数 p 会 满足 case Person(name,age), M 
而 完成 对 象 的 析 取 。 例 4-6 中 的 第 8 行 代码 演示 了 构造 器 模式 匹配 ， 语句 case Person ( Dame， 
age) =>" name =" +name+"，age=" +age 中 的 Person(name,age) 与 输入 Person 对 象 p 进 
行 匹 配 ， 先 匹配 类 型 Person ， 再 提取 构造 器 参数 对 应 的 值 。 从 前 述 代 码 及 执行 结果 可 以 看 
到 ， 构 造 器 模式 其 实 是 一 种 深度 匹配 (deep matches) ， 这 是 因为 变量 p 不 仅 匹 配 类 型 Per- 
son， 还 匹配 变量 p 所 引用 对 象 的 内 容 。 如 果 只 需要 匹配 对 象 中 部 分 成 员 的 变量 内 容 ， 可 以 
采用 占 位 符 _ 略 去 不 需要 匹配 结果 的 内 容 ( 见 代码 第 9 行 )。 


ÆJI] (Sequence) 模式 ) 


序列 模式 用 于 匹配 如 数组 (Array), JÆ (List), Range 这 样 的 线性 结构 集合 ， 其 实现 
原理 也 是 通过 Case Class 起 作用 的 ， 在 4.3 小 节 将 对 此 进行 详细 讲述 。 先 来 看 一 个 序列 模式 
匹配 的 例子 ， 如 例 4-7 所 示 。 序 列 模 式 用 于 匹配 线性 集合 如 List, Array 等 的 元 素 内 容 。 

【 例 4-7】 序 列 模式 匹配 示例 。 


objectSequencePattern | 
def main( args; Array| String | ) : Unit = | 
val list = List(" Spark" ," Hive" ," SparkSQL" ) 
valarr = Array("SparkR" ," Spark Streaming" ," Spark MLlib" ) 


1 

2 

3 

4 

5, defsequencePattern( p: Any) =p match | 

6 /序列 模式 匹配 ，* 表示 匹配 剩余 内 容 ,fist second 匹配 数组 p 中 的 第 一 .二 个 元 素 
7 case Array(first,second,_ * ) => first +" ," +second 
8 // 匹配 数组 p 的 第 一 个 元 素 ,但 不 赋 给 任何 变量 
9 case List(_,second,_ * ) => second 

10. case _ =>" Other" 

11. | 

12. println( sequencePattern (list) ) 


13. println( sequencePattern( arr) ) 
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执行 结果 如 下 : © 


Hive 
SparkR ,Spark Streaming 


如 代码 运行 结果 所 示 ，sequencePattern (list) 匹配 模式 case Array (first, second, _* ), se- 
quencePattern (arr) 匹配 模式 case List(_,second，* ) 。 例 4-7 F, $7 行 case Array ( first , sec- 
ond,_ * ) 中 的 first, second 变量 匹配 数组 中 的 第 一 、 第 二 个 元 素 ，_* 匹配 的 是 数组 中 的 剩 
余 元 素 ， 第 9 FF case List(_,second,_ * ) 中 的 占 位 符 _ 表 示 匹 配 List 中 的 第 一 个 元 素 ， 但 不 需 
要 将 值 返回 ，second 匹配 列表 的 第 二 个 元 素 ，_* 匹配 的 是 列表 中 的 剩余 元 素 。 


元 组 (Tuple) 模式 ) 


元 组 模式 用 于 匹配 Scala 中 的 元 组 内 容 ， 如 例 4-9 所 示 。 元 组 模式 用 于 匹配 元 组 类 型 的 
变量 内 容 。 


【 例 4-8】 元 组 模式 匹配 示例 。 


1. objectTuplePattern | 
2 def main( args; Array| String | ) : Unit = | 
3 val t = ( "spark" ," hive" ," SparkSQL" ) 
4 deftuplePattern(t; Any) =t match | 
5. case (one,_,_) =>one 
6 //_* 不 适用 于 元 组 ,只 适用 于 序列 
i //case (one,_ * ) => one 
8 case _ =>" Other" 
9 | 
10. println(tuplePattern(t) ) 
11. i 
12, | 
执行 结果 如 下 : 
spark 


如 执行 结果 所 示 ，tuple Patternt (t) 中 的 元 组 变量 t 会 匹配 模式 case(one,, ) 。 元 组 模式 
匹配 使 用 方式 与 元 素 的 定义 方式 类 似 ， 上 述 第 5 行 代码 中 case(one,_,_) 为 元 组 匹配 方式 ， 
变量 one 将 匹配 元 组 中 的 第 一 个 元 素 ， 占 位 符 _ 匹 配 元 素 的 第 二 、 三 个 元 素 ， 但 不 赋值 给 任 
何 变量 。 需 要 注意 的 是 第 6 行 被 注释 的 代码 ， 元 组 模式 中 不 能 使 用 _* 的 方式 匹配 剩余 元 素 ， 
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为 _* 只 适用 于 序列 模式 。 


i 
faa 
W 


4.2.6 类 型 模式 


在 Scala 中 ， 模 式 匹配 一 个 很 强大 的 功能 ， 是 它 可 以 匹配 输入 待 匹 配 变量 的 类 型 ， 如 例 
4-9 所 示 。 类 型 模式 用 于 判断 变量 的 类 型 ， 这 与 变量 定义 如 Val t: Stcing 具有 对 应 关系 ， 对 
应 类 型 模式 匹配 语法 则 为 case t: String, 

【 例 4-9】 类 型 模式 匹配 示例 。 


1. objectTypePattern | 
2 def main( args: Array[ String | ) ; Unit = | 
3 deftypePattern( t: Any) =t match | 
4 case t: String =>" String" 
5. case t; Int => " Integer" 
6 case t: Double =>" Double" 
7 case _ =>" Other Type" 
8 | 
9 println( typePattern(5. 0) ) 
10. println( typePattern(5 ) ) 
iil. println( typePattern( "5" ) ) 
12. println( typePattern( List( ) ) ) 
13. } 
14. } 
代码 执行 结果 如 下 ; 
Double 
Integer 
String 
Other Type 


如 代码 运行 结果 所 示 ， 不 同类 型 的 变量 最 终 得 以 确定 的 具体 的 类 型 。 类 型 匹配 模式 的 使 
用 类 似 于 类 型 变量 定义 方式 ， 如 第 4 行 代码 中 的 case t:String => " String" , t 为 待 匹 配 的 输入 
变量 ， 后 面 紧 跟 待 匹配 的 类 型 。 类 型 模式 匹配 能 够 简化 程序 设计 ， 在 Scala 语言 中 ， 如 果 不 
使 用 类 型 匹配 ， 但 仍然 想 达 到 类 型 判断 的 目的 ， 则 需要 使 用 例 4-10 中 的 代码 。 该 例 是 不 使 
用 模式 匹配 进行 类 型 判断 的 示例 。 

【 例 4-10】 条 件 判断 实现 的 类 型 匹配 示例 。 


1. objectTypePattern2 extends App | 

2 deftuplePattern2 ( t; Any) = | 

3. if (t. isInstanceOf| String] ) "String" 

4 else if (t. isInstanceOf[ Int] ) "Int" 

5 else if (t. isInstanceOf| Double | ) "Double" 
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else if (t. isInstanceOf[ Map[ _,_ | ]) "MAP" 
println( tuplePattern2 (5.0) ) 

println( tuplePattern2 (5 ) ) 

10. println(tuplePattern2( "5" ) ) 

11.  println( tuplePattern2 ( Map( ) ) ) 

12. } 


6. 
ATE 
8. 
9. 


代码 执行 结果 如 下 : 


Double 
Int 
String 
MAP 


如 结果 所 示 ， 通 过 使 用 is Instance of 也 可 以 达到 类 型 判断 的 目的 。 不 难 发 现 ， 采 用 条 件 
判断 方式 进行 类 型 识别 ， 代 码 不 够 直观 、 简 洁 ， 而 且 不 能 匹配 其 他 类 型 ， 例 如 println (tup- 
lePattern2( List( ) ) ) PAA tuplePattern2 不 会 返回 任何 结果 ， 而 类 型 匹配 中 的 tuplePattern 则 
会 返回 Other Type。 


变量 绑 定 模式 


在 进行 模式 匹配 时 ， 有 时 并 不 仅仅 只 是 返回 一 个 变量 ， 也 可 将 某 个 变量 绑 定 到 某 个 模式 
上 ， 从 而 将 整体 匹配 结果 赋值 给 该 变量 。 具 体 使 用 方式 是 在 模式 前 面 加 变量 和 @ 符号 ， 代 码 
如 例 4-11 所 示 。 变 量 绑 定 模式 指 的 是 将 模式 匹配 结果 赋予 特定 变量 的 一 种 模式 ， 其 形 如 
List(_,e@ List(_,_,_)), ， 指 定 的 是 变量 匹配 List(_,_,_) 成功， 则 将 整个 List 赋值 给 变量 e, 
【 例 4-11] 变量 绑 定 模 式 匹 配 示例 。 


1. object VariableBindingPattern | 

2 def main( args: Array| String | ) :Unit = | 

3 var t = List( List( 1,2,3 ) ,List(2,3,4) ) 

4. def variableBindingPattern(t; Any) =t match | 
5 /变量 绑 定 ,采用 变量 名 (这 里 是 e) 

6 


// 与 @ 符 号 ,如 果 后 面 的 模式 匹配 成 功 , 则 将 


整体 匹配 结果 作为 返回 值 
7. case List(_,e@ List(_,_,_) ) =>e 
8. case _ => Nil 
9. } 
10. println( variableBindingPattern(t) ) 
11. } 


语言 基础 与 开发 实战 


代码 执行 结果 如 下 : 


List(2 ,3 ,4) 


通过 代码 运行 结果 看 到 ， 变 量 t 中 的 元 素 被 绑 定 给 变量 e 输出 。 例 4-11 中 ，case List 
(_,e@ List(_,_,_)) =>e 中 的 变量 e 被 绑 定 到 模式 List(_，，) 上 ， 意 思 是 如 果 匹 配 成 功 包 
含 3 个 任意 元 素 的 List， 则 将 匹配 的 List 赋 给 变量 e。case List(_,e@ List(_,_,_)) 中 包含 两 
重 匹 配 ， 第 一 重 匹配 外 围 List， 如 果 匹 配 成 功 ， 再 匹配 外 围 List 的 子 List 元 素 。 


4.3 | 模式 匹配 与 Case Class 


在 前 一 小 节 中 的 序列 模式 匹配 、 构 造 器 模式 匹配 中 ， 曾 提 到 其 原理 都 是 通过 Case Class 
来 实现 的 。 在 实际 应 用 中 ， 模 式 匹 配 与 Case Class 可 以 算是 一 对 “黄金 搭档 ”， 在 实际 开发 
应 用 中 它们 经 常 在 一 起 被 使 用 。 本 小 节 将 对 此 进行 详细 分 析 。 


构造 器 模式 匹配 原理 


当 一 个 类 被 声明 为 case calss 时 ,编译 右 会 自动 进行 如 下 操作 . 

D 构造 器 中 的 参数 如 果 不 被 声明 为 var, PRUE val 类 型 的 。 

2) 自动 创建 伴生 对 象 ， 同 时 在 伴生 对 象 中 实现 apply 方法 ， 这 样 在 使 用 的 时 候 可 以 不 
直接 显 式 地 来 创建 new 对 象 。 

3) 伴生 对 象 中 同样 可 以 实现 unapply 方法 ， 从 而 可 以 将 case class 应 用 于 模式 匹配 。 

4) Sc A toString, hashCode, copy, equals 等 方法 。 

fil 4-12 给 出 了 一 个 Case Class 与 模式 匹配 使 用 示例 。 该 例 是 case class 与 模式 匹配 结合 
使 用 的 示例 ， 使 用 case class 最 大 的 好 处 是 不 需要 手动 定义 unapply 方法 。 

【 例 4-12] Case Class 与 模式 匹配 示例 。 


// 抽 象 类 Person 


abstract class Person( name; String) 
//case class Student 


1 
2 
3 
4 
5. case class Student( name; String, age; Int ,studentNo : Int) extends Person( name) 
6. //case class Teacher 

7. case class Teacher( name; String, age; Int, teacherNo;Int) extends Person( name) 
8. //case class Nobody 

9. case class Nobody( name; String) extends Person( name) 

11. object CaseClassAndPatternMatching | 

12 def main( args: Array| String | ) ; Unit = | 

13. //case class 会 自动 生成 apply 方法 ,从 而 省 去 new 操作 
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14. val p:Person = Student( "xb" ,18 ,1024 ) 
15. p match | 
16. // 构 造 器 模式 匹配 ,通过 自动 调用 unapply 方法 进行 实现 
17. case Student( name age ,studentNo) => printIn( name + " ;" + age +" :" +studentNo) 
18. case Teacher( name ,age ,teacherNo) => printIn(name +" ;" + age +" ;" +teacherNo) 
19. case Nobody( name) => println( name ) 
20. } 
21. } 
Dy, 
代码 执行 结果 如 下 : 
xb:18 :1024 


通过 代码 运行 结果 可 以 看 到 ， 直 接 使 用 构造 融 模 式 便 可 以 将 对 象 内 容 提 取出 来 。 这 里 的 


构造 器 模式 其 实 调用 的 是 unapply 方法 。 为 验证 模式 匹配 时 ， 后 面 的 实现 原理 确实 是 通过 
unapply 方法 来 实现 的 ， 这 里 对 Student 类 生成 的 字 节 码 文件 进行 反 编译 ，Student 类 编译 后 生 


成 两 个 字 节 码 文件 ， 分 别 是 Student$. class 〈 编译 需 自 动 生成 的 Student 伴生 对 象 对 应 的 字 码 
节 文 件 ) Student. class (Student 类 本 身 对 应 的 字 节 码 文件 ) ， 利 用 javap 命令 进行 反 编 译 后 


内 容 如 例 4-13 所 示 。 
【 例 4-13] case class Student 生成 的 字 节 码 反 编译 后 的 结果 示例 。 


D: \ScalaWorkspace \ScalaBookChapter04\bin > javap — private Student$. class 
Compiled from " CaseClassAndPatternMatching. scala" 

public final class Student$extends scala. runtime. AbstractFunction3 < java. lang. St 
ring, java. lang. Object, java. lang. Object ,Student > implements scala. Serializable 

| 

public static final Student$MODULE$ ; 

public static | | ; 

public final java. lang. String toString( ) ; 

// 编 译 器 自动 生成 的 apply 方法 

public Student apply(java. lang. String, int, int) ; 


. // VER A AE GAY unapply 方法 


public scala. Option < scala. Tuple3 < java. lang. String, java. lang. Object, java. lang 
Object > > unapply( Student) ; 

/7... 其 他 方法 .…: 

| 

D: \ScalaWorkspace \ScalaBookChapter04_1\bin > javap — private Student. class 
Compiled from " CaseClassAndPatternMatching. scala" 

public class Student extends Person implements scala. Product, scala. Serializable 

| 

private final java. lang. String name; 


private final int age; 


227 
23h, 
24. 
2, 
26. 


27 
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private final intstudentNo; 

//Student 类 中 对 应 的 静态 unapply 方法 

public static scala. Option < scala. Tuple3 < java. lang. String, java. lang. Object ,ja 
va. lang. Object > > unapply( Student) ; 

//Student 类 中 对 应 的 静态 apply 方法 

public static Student apply(java. lang. String, int, int) ; 

//... 其 他 方法 如 getter setter copy toString 等 

| 


通过 反 编 译 的 字 节 码 文件 可 以 看 到 ， 将 类 声明 为 case class， 编 译 吉 会 自动 帮 我 们 生成 


若干 方法 ， 在 本 例 中 最 重要 的 方法 是 apply 方法 及 unapply 方法 。Aplly 方法 用 于 不 直接 使 用 
new 显 式 创建 对 象 ， 而 unapply 方法 则 用 于 在 模式 匹配 时 对 对 象 进行 析 取 。 从 例 4-14 反 编译 


后 的 结果 可 以 看 到 ， 编 译 絮 确实 为 Student 类 生成 了 对 应 的 apply, unapply 及 其 他 相关 方法 。 


为 验证 背后 的 实现 原理 ， 在 Student 类 中 自己 定义 apply 及 unapply 方法 ， 从 而 使 其 能 够 用 于 
模式 匹配 ， 代 码 如 例 4-14 所 示 。 该 例 将 Student 类 定义 为 普通 类 ， 通 过 自己 手动 在 伴生 对 象 
Student 中 定义 apply 方法 和 unapply 方法 ， 以 使 Studnt 类 能 够 用 于 模式 匹配 。 

【 例 4-14】 自己 定义 unapply 方法 使 Student 类 能 够 用 于 模式 匹配 示例 。 


NOI) BSE EN IAS pe ost I i 


20. 


class Student( val name: String, val age : Int, valstudentNo ; Int) 

object Student | 

// 自 己 定义 的 apply 方法 
def apply( name: String, age ; Int, studentNo:Int) = new Studentl (name, age , studentNo) 
// 自 己 定义 的 unapply 方法 
defunapply(student:Studentl ) ; Option[ (String, Int, Int) ] = | 


if( student! =null) Some(student. name,student. age,student. studentNo) 


else None 


| 


. object PatternMatchingWithNoCaseClass extends App | 


val s = Student("xb" ,27 ,1024) 

s match | 
// 如 果 将 Student 伴生 对 象 中 的 unapply 方法 注释 掉 , 则 此 处 会 报错 
// 错 误 提 示 为 object Student is not a case class ,nor does it have an unapply/unapplySeq em- 
ber 


case Student( name, age , studentNo) => 


" 


printIn(" name =" + name +" ,age=" + age +" ,studentNo =" + studentNo) 


case _ => println( "null" ) 


| 
| 


代码 执行 结果 如 下 : 


第 4 章 Scala 模式 匹配 


name = xb, age =27,studentNo = 1024 


如 结果 所 示 ， 代 码 运行 结果 同 例 4-13 一 样 。 例 4-14 的 第 1 行 代 码 ， 定 义 了 一 个 普通 
的 Student 类 ， 第 2 行 至 第 10 ÍF, EXT Student 类 的 伴生 对 象 ， 并 定义 了 其 apply 及 unap- 
ply 方 法 ， 第 11 行 至 第 20 行 演示 了 模式 匹配 的 使 用 方法 ， 在 执行 第 16 行 代码 case Student 
(name, age, studentNo) 时 会 调用 Student 伴生 对 象 的 unapply 方法 ， 这 一 点 可 以 通过 程序 
调试 得 到 的 验证 。 不 难看 出 ， 自 己 定义 unapply 方法 的 普通 Student 类 与 case class Student 类 
在 使 用 上 没有 任何 差别 ， 后 面 的 实现 原理 是 一 致 的 ， 只 不 过 定义 为 case class, WARS A 
动 处 理 很 多 事情 ， 从 而 简化 了 程序 设计 。 


TOT 序列 模式 匹配 原理 


在 4.2 节 中 的 序列 模式 匹配 中 曾 提 到 ， 序 列 模式 背后 的 实现 原理 也 是 通过 Case Class K 
现 的 ， 与 前 面 的 构造 器 模式 使 用 unapply 方法 所 不 同 的 是 ， 序 列 模式 使 用 的 是 unapplySed 方 
法 ， 下 面 以 List 类 为 例 进 行 说 明 ，List 的 伴生 对 象 代码 如 下 : 


. object List extendsSeqFactory| List | | 

o Phosa BN E oo 

. override def apply[ A | (xs:A * ):ListL A] = xs. toList 
s Plasa Fut gs. 

| 


nF WN 一 


List 中 的 unapplySeq 继承 自 SeqFactory [List], SeqFactory 代码 如 下 : 


1. abstract classSeqFactory[ CC[X] < :Seq[X] with GenericTraversableTemplate| X ,CC | | 
2. extendsGenSeqFactory| CC | with TraversableFactory[ CC] | 
3. /* * This method is called in a pattern match | caseSeq(... ) =>}. 
4 * 
@ param x the selector value 


@ return sequence wrapped in an option, if this is aSeq, otherwise none 


3 tay 
6. defunapplySeq[ A ](x:CC[A]):Some[ CC[ A] ] =Some(x) 
i} 


这 意味 着 ， 当 遇 到 Array, List, Range 等 序列 模式 时 ， 调 用 的 是 unapplySed 方法 ， 如 例 
4-15 给 出 了 样 例 进行 说 明 。 对 于 序列 模式 ， 在 模式 匹配 时 调用 的 是 unapply 方法 完成 序列 中 
元 素 的 析 取 ， 这 是 序列 模式 与 其 它 类 型 匹配 匹配 的 最 大 区 别 ， 同 时 也 是 序列 模式 匹配 可 以 使 
用 _* 这 种 方式 进行 的 原因 。 

【 例 4-15】 序 列 模式 匹配 原理 示例 。 


1. val list = List(List(1,2,3),List(2,3,4)) 
Ds list match } 


© 
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// 调 用 的 是 unapplySeq 方法 
case List( List( one ,two ,three) ,_ * ) => 


" " 


+one +" two=" +two+" three =" + three) 
case _ => println(" Other" ) 


| 


3 
4 
5. println( " one = 
6 
7 


例 4-15 中 的 代码 执行 到 第 4 TIN, 会 自动 调用 unapplySeq 方法 ， 从 而 完成 模式 匹配 。 


Sealed Class 在 模式 匹配 中 的 应 用 ) 


在 进行 模式 匹配 时 ， 常 常 希望 将 所 有 可 能 匹配 的 情况 都 列举 出 来 ， 如 果 有 遗漏 ， 编 译 器 
应 该 给 出 相应 的 告警 ，Scala 语言 通过 使 用 sealed class (封闭 类 ) 提供 该 语法 支持 ， 其 使 用 
方法 如 例 4-16 所 示 。 下 面 的 代码 给 出 的 是 Sealed Class 在 模式 匹配 中 的 具体 使 用 ， 类 Person 
被 声明 为 sealed abstract class， 它 有 三 个 子 类 分 别 为 Student Teacher 及 Nobody， 在 模式 匹配 
时 需要 将 3 个 子 类 的 模式 都 列 出 来 。 

【 例 4-16] Sealed Class 在 模式 匹配 中 的 应 用 示例 。 


1. //Person 最 前 面 加 了 个 关键 字 sealed 
2. sealed abstract class Person( name:String) 
3. case class Student( name; String, age : Int, studentNo;Int) extends Person( name) 
4. case class Teacher( name : String, age; Int, teacherNo;Int) extends Person( name) 
5. case class Nobody( name; String) extends Person( name) 
6. object PatternMatchingWithSealedClass | 
Th def main( args: Array| String | ) : Unit = | 
8. val s; Person = Student ( "xb" ,18 , 1024 ) 
9. s match | 
10. case Student( name, age ,studentNo) => println( " Student" ) 
11. // 将 下 面 两 行 代 码 注释 掉 的 话 ,编译 器 会 给 出 告警 提示 
12. //match may not be exhaustive. It would fail on the following inputs; Nobody(_) , Teacher 
are 
13. case Teacher( name ,age,studentNo) => println( " Teacher" ) 
14. case Nobody( name) => println( " Nobody" ) 
15. } 
16. } 
Ie 4 
代码 执行 结果 如 下 : 
Student 


例 4-16 第 2 行 给 出 了 sealed class 的 定义 ， 可 以 看 到 封装 类 的 定义 同 其 他 类 形式 上 的 差 
别 在 于 前 面 加 了 关键 字 sealed。 代 码 第 11、12 行 注释 给 出 了 sealed class 的 作用 ， 当 编写 的 
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模式 匹配 代码 没有 列举 出 sealed class 的 所 有 子 类 时 ， 编 译 器 会 给 出 相应 的 告警 提示 ， 从 而 
避免 了 一 些 不 必要 的 问题 。 


E 模式 匹配 应 用 实例 


前 面 讲 的 模式 匹配 全 部 都 是 通过 match 关键 字 来 实现 的 ， 但 其 实在 Scala 语言 中 ， 模 式 
无 处 不 在 ， 例 如 下 列 变量 定义 : 


scala >val (xl,x2) =(5,6) 
xl Int =5 
x2: Int =6 


除 此 之 外 ,还 有 其 他 非 match 关键 字 方 式 的 模式 匹配 ， 下 面 给 出 for 循环 中 的 模式 匹配 、 
正则 表达 式 模式 匹配 及 异常 处 理 时 的 模式 匹配 实例 。 


for 循环 控制 结构 中 的 模式 匹配 


for 循环 中 模式 匹配 的 使 用 示例 如 例 4-17 所 示 。 下 面 的 代码 演示 的 是 从 模式 匹配 的 角 
理解 for 循环 ， 在 使 用 时 不 但 可 以 使 用 变量 模式 、 变 量 绑 定 模式 ， 还 可 以 匹配 特定 内 容 。 
[B 4-17] for 循环 控制 结构 中 的 模式 匹配 应 用 示例 。 


Ri 


object PatternMatchingInForLoop extends App | 


1 

之 

3 // 普 通 的 scala for 循环 ,从 模式 匹配 的 角度 来 看 , 它 也 是 典型 的 模式 匹配 应 
4 for(x < -List("Spark" ," Hive" ," Hadoop" ) ) 

5); println(" 普通 for 循环 :" +x) 
6 

7 

8 

9 


ay 


/变量 绑 定 模式 匹配 
for(x@ " Spark" < -List("Spark" ," Hive" ," Hadoop" ) ) 
println(" 变量 绑 定 for 循环 :" +x) 


11. /匹配 特定 内 容 

12. for( (x,2) < —List( ("Spark" ,100),("Hive" ,2) ,(" Hadoop" ,2) ) ) 
13. println(" 有 十 是 模式 匹配 味道 的 for 循环 :" +x) 

14. } 


代码 执行 结果 如 下 : 
普通 for 循环 : Spark 


普通 for 循环 . Hive 
普通 for 循环 :Hadoop 
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变量 绑 定 for 循环 :Spark 
有 十 足 模式 匹配 味道 的 for 循环 :Hive 
有 十 足 模 式 匹配 味道 的 for 循环 :Hadoop 


如 代码 运行 结果 所 示 ，for 循环 中 可 以 有 变量 模式 、 变 量 绑 定 模式 ， 还 可 以 匹配 特定 内 
容 。 代 码 第 4 行 给 出 的 是 一 个 普通 的 Scala for 循环 ， 其 实 从 模式 匹配 的 角度 来 看 ， ie 
种 模式 匹配 ， 这 一 点 可 以 通过 第 8 行 中 的 变量 绑 定 模式 匹配 得 到 验证 ， 第 12 行 给 出 了 最 
用 的 模式 匹配 范例 ， 它 只 匹配 所 有 第 2 个 元 素 内 容 为 2 的 List 子 元 素 。 


正则 表达 式 中 的 模式 匹配 D 


在 众多 的 编程 语言 当中 ， 包括 Java, Perl, PHP, Python, JavaScript 和 JScript， 都 无 一 
例外 地 支持 正则 表达 式 处 理 ，Scala 语言 同样 支持 正则 表达 式 ， 且 语法 格式 与 常用 的 正则 表 
达 式 语法 一 致 ， 虽 然 如 Scala 可 以 直接 通过 Java 操作 正则 表达 式 的 方式 使 用 正则 表达 式 ， 但 
Scala 实现 了 自己 的 方式 ， 且 更 为 灵活 ， 这 是 因为 它 利用 了 Scala 模式 匹配 这 一 强大 功能 。 

Scala 常用 正则 表达 式 符 号 含义 如 表 4-1 所 示 。 


表 4-1 常用 表达 式 符号 使 用 方法 
符 号 功能 描述 
它 是 一 种 通配符 ， 用 于 匹配 一 个 字符 ， 例如 Spa.k， 可 以 匹配 Spark, Spaak 等 任 
意 字 母 组 成 的 字符 串 ， 还 可 以 匹配 Spa#k 、Spa k 等 特殊 字符 组 成 的 字符 串 
[] 定 匹 配 ， 例 如 Spal ark]k 只 会 匹配 Spark, Spaak, Spakk 这 3 个 字符 串 ， 对 于 其 
他 字符 串 则 不 会 匹配 
| 或 匹配 ， 例 如 Spa(Calrlrrlk)k， 则 可 以 匹配 Spark, Spaak, Spakk 及 Sparrk 
匹配 行 结束 符 ， 例 如 Spark$ 匹 配 的 是 以 Spark$ 为 结尾 的 行 ， 例 如 I love Spark， 但 
它 不 匹配 Spark will be very poupular in the future 


` 匹配 行 开始 符 ， 例 如 “Spark 匹配 的 是 以 Spark 开始 的 行 ， 如 Spark will be very poup- 
ular in the future, Æ PEME I love Spark 


匹配 0 至 多 个 字符 ,例如 Spar * ， 可 以 匹配 Spar 开始 的 字符 串 ， 如 Spar, 


Sparr Sparrrrr 


/ 转 义 符 ， 例 如 Spark SUC ALAN 4 & Spark$ AYRE AS 


() 分 组 符 ， 它 会 将 ( ) 中 匹配 的 内 容 保存 起 来 ， 可 以 对 其 进行 访问 ， 例 如 Spa( al rl rr 
k)k 可 以 对 () 中 匹配 的 内 容 保存 为 一 个 临时 变量 ， 在 程序 中 可 以 直接 对 其 进行 访问 
匹配 一 次 或 多 次 ,例如 Spar + ， 可 以 匹配 任何 以 Spar 开始 的 字符 串 ， 如 
Spark 、Sparkkkkk 
? 匹配 0 次 或 一 次 ， 例 如 Spark(s) ? 可 以 匹配 Spark 和 Sparks 
tn} DCP n VK, BM Spark {2}, FP LAC ET love Sparkk 中 的 Sparkk 
tn. EDM n 次 ， 例如 Sparks { 2, } 可 以 匹配 I love Sparksss Sparkss 中 的 Sparksss 
Mat 和 Sparkss 
kasii 至 少 匹 配 n 次 ， 最 多 匹配 m R, MA Sparks {2,4} AT LIENE I love Sparks Sparkssss 


中 的 Sparkssss 


下 面 举 几 个 实例 说 明 其 使 用 方式 。 
(1) for 循环 中 正则 表达 式 匹 配 


的 


以 


第 4 章 Scala 模式 匹配 


例 4-18 中 给 出 的 是 在 for 循环 中 利用 正则 表达 式 匹 配 邮箱 并 提取 邮箱 名 ， 例 4-19 给 出 
是 在 for 循环 中 利用 正则 表达 式 匹 配 IP 地 址 并 提取 各 IP 地 址 段 。 

【 例 4-18】 匹配 邮箱 并 提取 邮箱 名 示例 。 

本 例 是 使 用 模式 匹配 进行 邮箱 匹配 并 提取 邮箱 名 的 用 法 ， 匹 配 使 用 的 也 是 for 循环 ， 可 > 
看 作 是 for 循环 模式 匹配 的 一 种 特殊 使 用 方式 。 通 过 val mailRegex ="([\\w- ] + OVD 


w-]+)*)@lw-]+CLw-]+)+'r 创 建 正 则 表 式 对 象 ， 使 用 for(matchString < 
-mailRegex. findAllIn ( mailStr) ) 进行 匹配 ， 然 后 使 用 for(mailRegex (domainName,_ * ) <- 
mailRegex. findAllIn( mailStr) ) 提取 邮箱 域名 。 


组 
十 
配 
第 


la. 


取 
[\ 


1. objectMailRegex | 
pi def main( args: Array| String | ) :Unit = | 
3. // 定 义 一 个 正则 表达 式 ,r 方法 返回 Regex 正则 表达 式 对 象 
4. valmailRegex = " ( [ \\w- ] + (\\. [\\w-] +) * )@[\\w-] +(\\. [\\w-]+)+".r 
5. val mailStr = " 如果 有 任何 疑问 请 联系 :18610086859@ 126. com 或 联系 xb1988@ sina. com" 
6. // 使 用 for 循环 匹配 
ds for( matchString < — mailRegex. findAllIn( mailStr) ) 
8. | 
9. println( matchString ) 
10. } 
11. // 通 过 unapplySeq 方法 提取 邮箱 名 
12. //domainName #2 FX AY VE BE ([ \\w- ] + (\\. [\\w-] +) * ) AE 
13. for( mailRegex(domainName,_* ) < — mailRegex. findAllIn( mailStr) ) 
14. | 
15. println ( domainName ) 
16. | 
17. | 
代码 执行 结果 如 下 : 


18610086859@ 126. com 
xb1988@ sina. com 
18610086859 

xb1988 


Bil 4 -18 中 第 4 行 定义 了 一 个 正则 表达 式 对 象 ， 需 要 注意 的 是 mailRegex 中 包含 3 个 分 
匹配 符 ， 它 们 分 别 是 ([ Ww -] AO [\\w-] +) *®) CAV. Aw] +) ROMA. [\Aw - J 
) ， 假 设 有 个 邮箱 名 称 为 xb1988. 1984@ sina. com, W([\\w-] +(\\. [\\w-] +) +) 
xb1988. 1984 ， 第 一 个 (\\. [\\w- ] +) DOME. 1984, RCA. [ \\w - ] + +) DEBE. com, 
7 行 中 mailRegex. findAllIn ( mailStr ) 返回 的 是 Matchlterator 对 象 ， Matchlterator 混和 人 了 sca- 
collection. Iterator 特质 ， 因 此 for 循环 可 以 遍历 所 有 匹配 内 容 。 第 13 行 代码 演示 了 如 何 提 
6 箱 名 ， 它 调用 的 是 Regex 中 的 unapplySeq 方法 ， 提 取 的 其 实 是 匹配 ([\\w-] +(\\. 
\w 一] +) * ) 的 内 容 。 
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【 例 4-19】 匹 配 IP 地 址 并 提取 IP 地 址 段 示例 。 

本 例 使 用 正则 表达 式 模 式 匹配 进行 IP 地 址 匹配 并 提取 IP 地 址 段 ， 使 用 val ipRegex = 
"Cd+r)Cdr) Cd+r) (Cd+)"r 创 建 模式 匹配 对 象 匹配 IP 地 址 ， 同 样 使 用 
for 循环 进行 操作 并 通过 for( ipRegex ( one,two,three,four) <- ipRegex. findAllIn(" 192. 168. 1. 
1") ) 进 行 卫 地址 段 的 提取 。 


1. objectIPRegex | 

Ds def main( args; Array[ String | ) ; Unit = | 

Be // 创 建 P 地 址 正则 表达 式 对 象 

4. valipRegex ="(\\d+)\\. (\\d +) \\. (\\d + )\\. (\\d +) "2 
S //for 循环 匹配 
6. 

T 

8. 

9. 


for( matchString < — ipRegex. findAllIn( "192. 168. 1.1") ) 
| 


println ( matchString ) 

| 
10. // 通 过 unapplySeq 方法 实现 模式 匹配 并 提取 IP 地 址 段 
11. for(ipRegex( one, two, three four) < -ipRegex. findAllIn( "192. 168.1.1")) 
12. | 
13. printIn("IP 子 段 1:" + one) 
14. printIn("IP 子 段 2:" +two) 
15. printin( "IP 子 段 3:" + three) 
16. printIn( "IP 子 段 4:" + four) 
17. | 
18. | 
19. } 

代码 执行 结果 如 下 : 

192. 168. 1.1 
IP FE 1:192 
IP F Ex 2:168 
IP 子 段 3:1 
IP 子 段 4:1 


如 运行 结果 所 示 ， 除 正确 匹配 IP 地 址 外 ， 还 可 提取 各 P 地 址 段 。 例 4-19 第 4 行 定 义 
了 一 个 正则 表达 式 对 象 (\\d+)\(C\dr Oad t). (Wd+)".r， 该 正则 表达 式 中 包 
含 4 个 分 组 符 ， 都 为 (\\d+ ) 这 种 模式 ， 第 6 ~ 10 行 给 出 了 其 在 for 循环 中 的 匹配 方式 。 第 
10 ~ 16 行 代 码 用 于 提取 各 P 地 址 段 ， 这 里 同样 调用 的 是 Regex 中 的 unapplySeq 方法 ， 提 取 
的 是 对 应 分 组 中 的 内 容 。 

(2) case 语句 中 的 正则 表达 式 匹 配 

例 4-20 演示 的 是 正则 表达 式 在 case 语句 中 的 使 用 ， 这 段 代 码 用 于 模拟 SparkContext 处 
理 不 同 的 Spark 运行 模式 时 采用 的 正则 表达 式 匹配 。 该 例 中 的 正则 表达 式 匹配 放 在 cose 语句 
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中 ， 模 拟 的 是 Spark 中 创建 Schedule Backend 的 代码 。 
【 例 4-20】 case 语句 中 的 正则 表达 式 匹 配 示 例 。 


1. objectPatternMatching extends App| © 
2 // VERE local[ N] 及 locall * | 

3 val LOCAL_N_REGEX =" ""]local\[ ([0-9] +1\* )\]J""".r 

4 // 匹 配 Spark Standalone 运行 模式 

5. val SPARK_REGEX ="""spark://(. # )"""vr 

6 /匹配 MESO 运行 模式 

7 val MESOS_REGEX =""" (mesos|zk) ://. *""", r 

8 // 匹 配 Spark In MapReduce vl 资源 管理 器 

9 val SIMR_REGEX ="""simr://(. * )""".r 

10. //val master = " spark ://sparkmaster ; 7077" 


11. val master = " zk ://sparkmaster :8080" 

12, master match | 

13. //LOCAL_N_REGEX( threads) VU Ht local[ N] 22 local[ * ] , threads 提取 的 是 正则 表达 式 分 组 
符 ( ) 中 的 内 容 

14.，// 本 例 中 threads 匹配 的 是 local\[ ([0 -9] +1\ * )\] AC [0-9] +1\* ) 这 部 分 内 容 

15. case LOCAL_N_REGEX( threads) => println( " local 运行 模式 ,线程 数量 :" + threads) 

16. //SPARK_REGEX( sparkurl) 匹配 形 如 spark://sparkmaster:7077 这 样 的 内 容 ,sparkurl 提取 
() 中 的 内 容 , 在 本 例 中 为 spark:/A(. * ) 中 (. * ) 的 内 容 


17. case SPARK_REGEX ( sparkurl ) => println ( " spark standalone 运行 模式 ,url 地 址 :" + 
sparkurl ) 

18. //MESOS_REGEX (_) 匹配 形 如 mesos ://sparkmaster ; 8088 或 zk://sparkmaster : 2381 这 样 的 
内 容 


19.// 在 本 例 中 _ 匹 配 的 是 (mesoslzk)://. * (mesos | zk) 的 内 容 , 由 于 采用 的 是 变量 绑 定 模式 ， 
url 会 匹配 整个 内 容 

20. case url@ MESOS_REGEX(_) => println(" mesos 运行 模式 ,url 地 址 :" + url) 

21. //SIMR_ REGEX (simrurl ) 匹配 形 如 simr://sparkmaster; 9000 这 样 的 内 容 , simrurl 提取 
simr;//(. * ) 中 (. * ) 的 内 容 


22) case SIMR_REGEX(simrurl) => println ( " simr 运行 模式 ,ul 地 址 :" + simrurl) 
23s } 
24. | 

程序 运行 结果 如 下 : 


mesos 运行 模式 ,url 地 址 ;zk://sparkmaster:8080 


fi) 4-20 第 2 ~9 行 定 义 了 4 种 不 同 的 正则 表达 式 对 象 ， 例 如 第 3 行 定 义 的 val LOCAL_N 
_REGEX ="""Jocal\[ ([0 -9] + 1\* )\J""". 2, EAA DERE local [N] 及 locall * ] 两 种 模 
st, 28 15 行 中 的 case LOCAL_N_REGEX (threads) => println ("local 运行 模式 ， 线 程 数量 ; 
" +threads) 在 匹配 时 ，threads 会 匹配 LOCAL_N_REGEX 正则 表达 式 对 象 ([0 -9] +1\ * ) 
中 的 内 容 。 代 码 第 5 行 定 义 的 val SPARK_REGEX = """spark://(. * )""".r， 它 用 于 匹配 
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类 似 于 " spark ://sparkmaster : 7077 " 这 样 的 内 容 ,， 它 与 第 19 行 的 case SPARK _REGEX 
(sparkurl) => printIn(" spark standalone 运行 模式 ，url 地 址 :" + sparkurl) 代码 是 对 应 的 。 第 7 
行 val MESOS_REGEX = """ (mesosizk)://. *""".r, 第 9 行 valSIMR_REGEX = """ 
simr://(. * )""".r FUSE RES 5 行 代码 类 似 。 


es 异常 处 理 中 的 模式 匹配 


相 比 于 Java 语言 ，Scala 语言 中 的 异常 处 理 也 有 着 自己 的 特殊 方式 ,采用 的 也 是 模式 匹 
配 的 实现 方式 ， 为 方便 比较 ， 首 先 给 出 Java 语言 中 的 异常 处 理 代码 (如 例 4-21 所 示 )。 
【 例 4-21】 Java 语言 中 的 异常 处 理 代码 示例 。 


1. import java. io. File; 

2. import java. io. IOException; 

3, 

4. public classJavaExceiptionDemo | 

5. public static void main( String[ | args) | 
6. File file = new File( "a. txt" ); 
Ws if (! file. exists()) | 

8. try | 

9. file. createNewFile() ; 
10. } catch (IOException e) | 
11. e. printStackTrace() ; 
12. | 

13. } 

14. | 

15. |} 


Scala 风格 的 异常 处 理 代码 如 例 4-22 所 示 。 
【 例 4-22) Scala 语言 中 的 异常 处 理 代码 示例 。 


import java. io. File; 


import java. io. IOException; 


objectScalaExceptionDemo extends App | 
val file; File = new File( "a. txt" ) 
if (! file. exists) | 
try | 
file. createNewFile 
| 
catch | 
// 通 过 模式 匹配 来 实现 异常 处 理 


case e:IOException => | 


DN tee 


=. = = 
oS E 
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13. e. printStackTrace 
14. } 
15. } 


16 |] © 


We | 


对 比例 4-21、 例 4-22 不 难 发 现 ，Scala 语言 模式 匹配 风格 的 异常 处 理 代 码 更 符合 常规 
思维 习惯 ， 使 用 更 方便 ， 因 为 这 种 类 型 模式 可 以 非常 直观 地 给 出 具体 出 错 的 类 型 ， 同 时 也 有 
助 于 代码 的 理解 并 使 代码 更 具 简 洁 性 。 


Spark 源码 中 的 模式 匹配 使 用 

模式 匹配 在 Spark 源码 中 可 谓 无 处 不 在 ， 下 面 给 出 几 个 代码 片段 说 明 Scala 模式 匹配 在 
Spark 源码 中 的 使 用 情况 。 

(1) 党 量 模式 、 变 量 模式 、 正 则 表达 式 模 式 及 变量 绑 定 模式 匹配 

SparkContext (org. apache. spark. SparkContext. scala) 是 Spark MAH, EME 
Spark 集群 进行 交互 ， 包 括 创 建 RDD ， 任 务 调试 、 管 理 accumulators 和 广播 变量 等 。Spark- 
Context 创建 时 会 创建 TaskSheduler 及 DAGCScheduler， 其 中 TaskSheduler 通过 方法 createTask- 
Scheduler 进行 创建 ， 代 码 如 下 : 


1. private defcreateTaskScheduler( 

2. sc:SparkContext， 

3. master: String) : (SchedulerBackend ,TaskScheduler) = | 

4. /正则 表达 式 变量 ,用 于 匹配 local[ N] and local[ * ] 

5. val LOCAL N_REGEX="""local\[([0-9] +1\# )\]""".r 

6 // 正 则 表达 式 变量 ,用 于 匹配 local[l N ,maxRetries | 

7. val LOCAL_N_FAILURES_REGEX ="""local\[([0 -9] +1\ #)\s*,\s*([0-9] +) 
Nee 

8. oe 用 于 匹配 local - cluster[ N ,cores , memory | , 伪 分 布 式 模式 

9. val LOCAL_CLUSTER_REGEX = """ local — cluster\[ \s * ([0 -9] + )\s* ,\s* ([0-9] +)\ 


s*,\s*([0-9]+)\s* ]"""V4r 

10.，// 正 则 表达 式 变 量 ,Spark Standalone 模式 

11. val SPARK REGEX ="""spark://(. * )""".r 

12，/ 正 则 表达 式 变量 , Mesos 集群 资源 管理 模式 

13. val MESOS_REGEX =" "" ( mesos| zk) ://. * """.r 
14. //Regular expression for connection toSimr cluster 
15. val SIMR_REGEX =""" simr;//(. * )""".r 

16. val MAX_LOCAL_TASK_FAILURES =1 


17. master match | 
18. /常量 匹配 ,匹配 "local" 常 


19. case "local" => 


应 数 
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20，/ 和 省 略 具体 代码 


21，/ 正 则 表达 式 变量 匹配 ,用 于 匹配 local[ N] and local[ * ] 

22. case LOCAL N_REGEX(threads) => 

23. /省 略 具体 代码 

24，/ 正 则 表达 式 变 量 匹配 ,用 于 匹配 local[ N ,maxRetries | 

25. case LOCAL_N_FAILURES_REGEX ( threads , maxFailures) => 
26，/ 省 略 具体 代码 

27.，/ 正 则 表达 式 变 量 匹配 ,用 于 匹配 local | N ,maxRetries | 

28. case SPARK_REGEX(sparkUrl) => 

29，// 省 略 具 体 代码 

30.，/ 正 则 表达 式 变量 匹配 ,用 于 匹配 local - cluster[ N , cores ,memory] 
31. case LOCAL_CLUSTER_REGEX ( numSlaves ,coresPerSlave ,memoryPerSlave) => 
32. /省 略 具 体 代码 

33.，// 常 量 匹配 ,匹配 常量 "yarn — standalone" | "yarn — cluster" 


my 2 


34. case " yarn — standalone yarn — cluster" => 


35. /省 略 具体 代码 

36，/ 常 量 匹配 ,匹配 常量 "yarn - client" 

37. case "yarn — client" => 

38. /省 略 具体 代码 

39.，// 变 量 绑 定 模式 匹配 ,用 于 匹配 Mesos 

40. casemesosUrl @ MESOS_REGEX(_) => 

41. /省 略 具体 代码 

42.，/ 正 则 表达 式 变量 匹配 ,用 于 匹配 SIMR( Spark In MapReduce) ,MapReduce V1 
43. case SIMR_REGEX(simrUrl) => 

44，/ 省 略 具体 代码 


45. case _=> 


46. throw newSparkException(" Could not parse Master URL:” + master +"") 
47. } 

48. } 

49. 


(2) 类 型 模式 
下 面 给 出 的 代码 为 SparkContext 中 的 requestTotalExecutors 方法 ， 其 作用 是 向 集群 


量 的 Executor。 


private| spark | override def requestTotalExecutors ( 

numExecutors : Int, 

localityAwareTasks ; Int, 

hostToLocalTaskCount ; scala. collection. immutable. Map| String, Int ] 
) : Boolean = | 

schedulerBackend match | 


// 类 型 匹配 


ASAE ae Ne a 


请 求 对 
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case b; CoarseGrainedSchedulerBackend => 


b. requestTotalExecutors ( numExecutors , localityAwareTasks , hostToLocalTaskCount ) 


case _ => 
logWarning( " Requesting executors is only supported in coarse — grained mode" ) © 
false 


| 


(3) 元 组 模式 

下 面 给 出 的 代码 来 源 于 SparkSubmit ( org. apache. spark. deploy. SparkSubmit. scala ) ， 
SparkSubmit 为 Spark 应 用 程序 提交 执行 的 入 口 ， 在 SparkSubmit 类 中 有 一 个 prepareSubmitEn- 
vironment 方法 ， 用 于 在 程序 提交 之 前 ， 检 测 并 准备 相应 的 环境 信息 ， 给 出 的 代码 作用 是 匹 
配 不 支持 的 资源 管理 器 类 型 及 部 署 模式 。 


r E A er a 


一 一 
SN A er ks OS SS 


19. 


// 元 组 匹配 ,匹配 python R 等 当前 不 文 持 的 集群 部 署 方式 

(clusterManager, deployMode) match | 

case ( MESOS, CLUSTER ) if args. isPython => 

printErrorAndExit( " Cluster deploy mode is currently not supported for python " + 
" applications onMesos clusters. " ) 

case (STANDALONE, CLUSTER) if args. isPython => 

printErrorAndExit(" Cluster deploy mode is currently not supported for python " + 
"applications on standalone clusters. " ) 

case (STANDALONE, CLUSTER) if args. isR => 

printErrorAndExit(" Cluster deploy mode is currently not supported for R " + 
"applications on standalone clusters. " ) 

case (_,CLUSTER) ifisShell( args. primaryResource ) => 

printErrorAndExit(" Cluster deploy mode is not applicable to Spark shells. " ) 
case (_,CLUSTER) ifisSqlShell( args. mainClass) => 

printErrorAndExit('" Cluster deploy mode is not applicable to Spark SQL shell. " ) 
case (_,CLUSTER) ifisThriftServer( args. mainClass ) => 

printErrorAndExit(" Cluster deploy mode is not applicable to Spark Thrift server. " ) 


case _ => 


| 


(4) 构造 器 模式 

给 出 的 代码 来 源 是 org. apache. spark. scheduler. cluster. CoarseGrainedSchedulerBackend. scala, 
CoarseGrainedSchedulerBackend 是 一 个 基于 Akka 实现 的 粗 粒度 资源 调度 类 ， 用 于 在 Spark 任务 运 
行 期 间 ， 监 听 并 持 有 注册 给 它 的 Executor 资源 ， 在 接受 Executor 注册 、 状 态 更 新 、 响 应 Scheduler 
请 求 等 时 ， 利 用 现 有 Executor 资源 发 起 任务 调度 流程 。CoarseGrainedSchedulerBackend 类 中 有 个 
receiveAndReply 方法 ， 用 于 接收 Executor 注册 、 停 止 运行 、 删 除 等 请 求 ， 具 体 如 下 : 


1. 
2 


override defreceiveAndReply( context: RpcCallContext) :PartialFunction| Any, Unit | = | 
// 构 造 器 模式 匹配 ,注册 Executor 
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caseRegisterExecutor( executorld ,executorRef,hostPort ,cores ,logUrls) => 


// 省 略 具 体 代码 


3 

4 

5. /构造 器 模式 匹配 ,停止 Driver 

6. caseStopDriver => 

7. context. reply( true) 

8. stop() 

9. // 构 造 右 模式 , 停 I Executors 

10. caseStopExecutors => 

11. logInfo("Asking each executor to shut down" ) 
12. for ((_,executorData) < —executorDataMap) | 
13. executorData. executorEndpoint. send ( StopExecutor ) 
14. | 

15. context. reply( true) 

16. // 构 造 右 模式 , 移 除 Executors 

17. caseRemoveExecutor( executorld,reason) => 

18. removeExecutor( executorld ,reason ) 

19. context. reply( true ) 

20. // FIERREN , SEAL Spark 配置 信息 


21. caseRetrieveSparkProps => 


22. context. reply (sparkProperties ) 
23. | 


4.5 人 小结 


本 章 对 Scala 中 的 模式 匹配 进行 了 详细 介绍 ， 通 过 本 章 的 学 习 ， 读 者 应 该 能 够 充分 理解 


模式 匹配 的 语法 及 如 何 应 用 模式 匹配 ， 对 种 用 的 模式 匹配 类 型 如 常量 模式 、 变 量 模式 、 构 造 
器 模式 、 序 列 模 式 、 元 组 模式 、 类 型 模式 及 变量 绑 定 模式 有 一 定 的 认识 ， 能 够 理解 序列 模 
式 、 构 造 髓 模式 背后 的 实现 原理 ， 对 Case Class 中 的 unapply 或 unapplySeq 方法 在 模式 匹配 
中 的 作用 有 清晰 的 认识 。 除 此 之 外 ， 还 应 该 能 够 熟练 地 掌握 for 循环 、 正 则 表达 式 、 异 常 处 
理 中 的 模式 匹配 应 用 。 模 式 匹配 在 实际 项 目 开发 中 无 处 不 在 ， 本 章 最 后 用 Spark 源码 中 的 常 
用 模式 匹配 应 用 说 明 这 一 点 。 


S578 Scala 集合 a 


Scala 2. 8 版 本 中 对 Scala 的 集合 框架 做 了 非常 显著 的 改进 〈 新 框架 也 大 部 分 兼容 旧 的 框 
架 ) ， 极 大 地 提高 了 集合 类 的 易 用 性 、 通 用 性 、 一 致 性 ， 以 及 功能 的 丰富 性 。 本 章 内 容 将 着 
IRF Scala 的 集合 框架 ， 详 细 解析 Scala 集合 类 及 其 应 用 实例 。 为 了 进一步 加 深 对 Scala 的 集 
合 框架 的 理解 ， 在 集合 类 及 其 实例 之 后 ， 对 Scala 的 整个 集合 框架 进行 了 简单 分 析 ， 以 方便 
读者 后 续 深入 学 习 Scala 的 集合 类 库 ， 甚 至 在 现 有 类 库 的 基础 上 构建 自己 的 集合 类 。 


可 变 集合 与 不 可 变 集合 (Collection) 


a 


Scala 集合 类 系统 地 区 分 了 可 变 的 和 不 可 变 的 集合 。 顾 名 思 义 ， 可 变 集合 意味 着 可 以 对 
集合 进行 增加 、 删 除 、 修 改 等 扩展 性 的 操作 ， 对 应 的 不 可 变 集 合 ， 则 不 会 改变 。 对 这 些 不 可 
变 集 合 的 增加 、 删 除 、 修 改 等 操作 ， 都 会 返回 一 个 新 的 集合 ， 不 会 直接 修改 原 有 的 集合 。 

所 有 的 集合 类 都 可 以 在 scala. collection 或 scala. collection. mutable , scala. collection. immu- 
table, scala. collection. generic 包 中 找到 。 对 应 的 包 结 构 如 图 5-1 所 示 。 


Š- Ez scala 
5- E3 annotation 
由 -区 beans 
i Eg collection 
- Eg concurrent 
#- Ea convert 
Œ- Eg generic 
Œ- E3 immutable 
©- Ea mutable 
#- Eş parallel 
©- Ea script _ 


图 5-1 集合 类 的 包 结构 


其 中 ， 主 要 包 的 内 容 如 下 : 

1) scala. collection. immutable 包 中 的 集合 类 : 确保 集合 本 身 不 能 被 修改 。 

2) scala. collection. mutable 包 中 的 集合 类 ， 支持 对 集合 本 身 的 增加 、 删 除 、 修 改 等 操作 。 

3) scala. collection 包 中 的 集合 类 ， 既 可 以 是 可 变 的 ， 也 可 以 是 不 可 变 的 。scala. collection 
包 中 的 根 集 合 类 中 定义 了 相同 的 接口 作为 不 可 变 集 合 类 。 同 时 ，scala. collection. mutable 包 中 
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的 可 变 集合 类 代表 性 地 添加 了 一 些 有 辅助 作用 的 修改 操作 到 这 个 immutable 接口 。 
如 图 5-2~ 图 5-4 所 示 是 Scala 官网 的 集合 类 图 ， 给 出 了 集合 类 的 整个 架构 的 类 结构 。 
其 中 , 在 图 5-2 中 显示 了 scala. collection 包 中 所 有 集合 类 。 这 些 都 是 高 级 的 抽象 类 或 特质 ， 


通常 包含 可 变 和 不 可 变 的 具体 实现 类 。 


图 5-2 scala. collection 包 和 集合 类 的 类 民 


IndexedSeq 


其 中 ，Traversable 是 所 有 集合 的 父 类 ( 特质， 后续 为 了 简化 ， 不 再 具体 指出 是 特质 )， 
对 应 该 类 对 外 提供 的 ( 即 带 有 publie 访问 修饰 符 ) 的 方法 ， 也 继承 到 了 具体 子 类 中 。Tter- 
able 继承 了 Traversable ， 表 示 集 合 具有 可 迭代 性 ， 其 他 集合 均 继 承 了 Iterable。 具 体 子 类 Seq 
表示 序列 Set HRA, Map 表示 映射， 这 几 个 集合 类 在 后 续 会 详细 给 出 描述 及 其 具体 使 用 
的 实例 与 实例 解析 。 

如 图 5-3 中 显示 了 scala. collection. immutable 包 中 集合 的 类 图 。 


HashMap 


TreeMap 


LinearSeq 


IndexedSeq 


图 5-3 scala. collection. immutable 包 中 集合 类 的 类 图 
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如 图 5-4 中 显示 了 scala. collection. mutable 包 中 集合 的 类 图 。 


© 


LinkedHas 
hSet 


ObservableSet | | SynchronizedSet 
a) 


ImmutableSetAdaptor 


MultiMap 


WeahHashMap 


OpenHashMap 


ObservableMap 


SynchronizedMap 


b) 


ImmutableSetAdaptor 


Seq 


IndexedSeq 


ArraySeq 
StringBuilder SynchronizedStack LinkedList 
ArrayBuffer Synchronized Buffer MutableList DoubleLinkedList 


ObservableBuffer SynchronizedPriotityQueue 
SynchronizedQueue 
c) 


图 5-4 scala. collection. mutable 包 中 的 集合 类 的 类 图 


a) 可 变 Set 类 图 b) 可 变 Map 类 图 c) 可 变 Seq 类 图 
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图 5-4 中 给 出 了 更 具体 的 实现 子 类 ， 从 上 面 3 个 类 图 中 可 以 看 到 ， 所 有 的 集合 类 都 继承 
自 Traversable ， 在 该 类 中 对 应 提供 了 一 组 接口 及 对 应 的 默认 实现 。 
同时 ，Scala 集合 类 还 提供 了 Traversable 的 伴生 对 象 ， 在 Traversable 伴生 对 象 中 继承 了 


TraversableFactory ， 对 应 集合 类 的 构建 工厂 。 

Scala 的 集合 类 库 可 以 作为 程序 的 基础 组 成 构件 ， 而 对 于 可 变 集合 与 不 可 变 集合 的 选择 ， 
应 该 根据 是 否 需要 对 集合 进行 修改 来 确定 。 对 应 函数 式 编程 范式 而 言 ， 应 尽 可 能 选择 不 可 变 
的 集合 类 。 当 需要 同时 使 用 可 变 和 不 可 变 的 集合 类 时 ， 可 以 使 用 以 下 方式 导入 ， 然 后 使 用 
mutable. xxx 引用 具体 的 可 变 集 合 类 ， 使 用 xxx 引入 具体 的 不 可 变 集合 类 ， 比 如 以 Map 集合 
类 为 例 ， 可 以 通过 如 下 方式 导入 并 使 用 集合 类 : 


import scala. collection. immutable. _ 
import scala. collection. mutable 
mutable. Map(1 -> "a" ,2 ->"b") 
Map(1->"a" ,2->"b") 


Be Gia eats 


为 了 方便 使 用 ， 同 时 保证 向 后 的 兼容 性 ，Scala 类 库 还 提供 了 一 些 类 型 和 对 象 的 别名 ， 
以 便于 使 用 集合 类 ， 对 应 的 代码 在 Scala 包 对 象 中 提供 ， 具 体 代 码 如 下 所 示 : 


/ k x 
* Scala 核心 类 型 。 这 些 类 型 通常 不 需要 显 式 导入 即 可 使 用 


* Core Scala types. They are always available without an explicit import. 


* @ contentDiagram hideNodes " scala. Serializable" 
*/ 
package object scala | 

typeThrowable = java. lang. Throwable 


type Exception = java. lang. Exception 


ROE Ua EN A eae eE N 


type Error = java. lang. Error 


> 


. // 在 scala 的 包 对 象 中 定义 的 一 些 集合 类 型 和 对 象 的 别名 


type List| +A] = scala. collection. immutable. List[ A | 


ei 一 
es 


val List = scala. collection. immutable. List 


p> 


val Nil = scala. collection. immutable. Nil 


ea 


type ::[ A] =scala. collection. immutable. ; ;[ A | 


a 


val :: =scala. collection. immutable. : : 


= 


以 List 为 例 〈 其 他 别名 或 重 定 义 类 似 ) ， 在 各 定义 上 按 F4 键 查 看 具体 定义 ， 此 时 可 以 
看 到 : 

1) type List[ + A] = scala. collection. immutable. List[ A]: 定义 了 immutable 包 中 的 List 
[ +A] 类 型 的 别名 ，List[ +A] 类 型 的 定义 如 下 所 示 : 


Ree SAS bee eo oe 


cscala 集 全 


sealed abstract class List[ +A] extendsAbstractSeq[ A | 

withLinearSeq| A | 

with Product 

with GenericTraversableTemplate[ A , List | © 
withLinearSeqOptimized[ A, List| A] ] | 


| 


2) val List = scala. collection. immutable. List; ŒE X T immutable 包 中 的 object List 单 例 
WA, object List 单 例 对 象 的 定义 如 下 所 示 : 


1. 
Ds 
3h 


object List extendsSeqFactory[ List] | 


| 


3) val Nil = scala. collection. immutable. Nil: ŒE X T immutable 包 中 的 case object Nil FF 


例 对 象 Nil ， 


1. 
Ds 
3h 


case object Nil 样 例 对 象 Nil 的 定义 如 下 所 示 : 


case object Nil extends List[ Nothing] | 


| 


Ester 集合 的 相关 操作 


Scala 集合 类 库 继 承 层 次 的 根 节点 为 trait Traversable[ + A] ， 对 应 该 特质 ， 同 时 提供 了 一 
个 特质 trait TraversableLikel + A, + Repr] Traversable 提供 oO 口 及 其 实 现代 码 (类 名 
后 添加 Like 的 形式 类 似 于 Java 开发 中 所 对 应 类 名 的 Impl 的 后 缀 形式 ， 通 常 提供 一 组 默认 的 


实现 代码 ) 。 


在 Traversable 类 的 源码 中 ， 已 经 在 注释 部 分 给 出 了 继承 自 TraversableLike 的 接口 列表 。 
在 这 些 从 TraversableLike 特质 中 继承 的 接口 中 ， 唯 一 未 提供 具体 实现 的 抽象 操作 是 foreach, 


代码 如 下 所 示 
1. /* * Applies a function fto all elements of this $coll. 
2 
3 * Note; this method underlies the implementation of most other bulk operations. 
4. * Its important to implement this method in an efficient way. 
5. */ 
6. def foreach| U] (f;A => U) ; Unit 
tt 


foreach 方法 ， 顾 名 思 义 ， 是 指 遍历 整个 集合 中 的 各 个 元 素 ， 并 将 指定 的 操作 f 作 用 于 每 


个 元 素 上 。 
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而 对 应 的 其 他 操作 都 是 基于 foreach 接口 实现 的 ， 因 此 要 实现 Traversable 的 集合 子 类 ， 
只 需要 实现 foreach 方法 ， 对 应 的 其 他 方法 则 可 以 直接 从 Traversable 中 继承 。 


下 面 参考 官网 给 出 的 接口 分 类 ， 分别 对 Traversable Hef! 


如 表 5-1 到 表 5-13 所 示 。 


方 ” 法 


表 5-1 抽象 方法 


的 各 个 接口 加 以 说 明 。 具 体 说 明 


xs foreach f 


对 xs 中 的 每 一 个 元 素 执行 函数 f 


xs ++ ys 


得 到 一 个 由 xs 和 ys 的 元 素 组 成 的 集合 。 
如 一 个 Taversable 或 一 个 迭代 器 (Iterator) 


其 中 ， ys 是 一 个 TraversableOnce 集合 ， 比 


表 5-3 映射 (Maps) 的 操作 


方法 说 W 

xs map f 将 函数 f 作 用 在 集合 中 的 每 个 元 素 上 

xsflatMap f 将 返回 值 为 集合 的 函数 f 作用 在 集合 的 每 个 元 素 上 ， 并 将 各 个 返回 的 集合 值 扁平 
ies 化 ， 作 为 集合 的 元 素 

xs collect f 将 偏 函 数 f 作 用 在 xs 的 每 个 元 素 上 ， 并 将 有 结果 的 值 收 集 起 来 形成 一 个 集合 


Ù ”法 


表 5-4 转换 (Conversions) 的 操作 


说 


明 


xs. toArray 


= 
CE 
Nm 
ant 
m> 
站 


换 为 一 个 数组 


xs. toList 


把 集合 转换 为 一 个 list 


xs. tolterable 


把 集合 转换 为 一 个 迭代 器 


xs. toSeq 


把 集合 转换 为 一 个 序列 


xs. toIndexedSed 


把 集合 转换 为 一 个 索引 序列 


xs. toStream 


把 集合 转换 为 一 个 延迟 计算 的 流 


xs. toSet 把 集合 转换 为 一 个 集合 (Set) 
xs. toMap | 把 元 素 为 键 / 值 对 的 集合 转换 为 一 个 映射 表 (map) ， 如 果 该 集合 元 素 不 是 键 / 值 对 ， 
调用 该 操作 将 会 导致 一 个 静态 类 型 的 错误 
表 5-5 复制 (Copying) 的 操作 
方 ” 法 说 明 
xscopyToBuffer buf 把 集合 中 的 元 素 复制 到 buf 缓冲 区 
把 集合 的 元 素 复制 到 数组 ar 的 起 始 索 引 为 ; 处 ， 最 多 复制 n 个 元 素 。 其 中 ， 参 数 


xscopyToArray (arr, s, n) 


s, n 是 可 选项 


方 ”法 
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表 5-6 集合 大 小 信息 (Size info) 的 操作 


说 明 


xs. isEmpty 


测试 集合 是 否 为 空 


xs. nonEmpty 


测试 集合 是 否 包含 元 素 © 


xs. size 


计算 集合 元 素 的 个 数 


xs. hasDefiniteSize 


Te Š 


如 果 集 合 大 小 是 有 限 的 ， 则 为 true 


表 5-7 元 素 检索 (Element Retrieval) 的 操作 


说 H 


xs. head 


返回 集合 内 的 第 一 个 元 素 (或 其 他 元 素 ， 若 当前 的 集合 无 序 ) 


xs. headOption 


xs 选项 值 中 的 第 一 个 元 素 ， 关 xs 为 空 则 为 None 


xs. last 


ERARA (或 某 个 元 素 ， 如 果 当 前 的 集合 无 序 ) 


5 
a 
y 


xs. lastOption 


xs 选项 值 中 的 最 后 一 个 元 素 ， 如 果 xs 为 空 则 为 None 


xs find p 查找 xs 中 满足 p 条 件 的 元 素 ， 若 存在 ， 则 返回 第 一 个 元 素 ; 若 不 存在 ， 则 为 空 
表 5-8 获取 子 集合 (Subcollection) 的 操作 
方 ” 法 说 明 
xs. tail 获取 除 xs. head 外 的 其 余部 分 
xs. init 获取 除 xs. last 外 的 其 余部 分 
xs slice (from, to) 切片 操作 ， 获 取 从 from 到 to ( 左 闭 右 开 ) 的 索引 范围 内 的 元 素 所 组 成 的 集合 
xs take n 获取 集合 的 前 n 个 元 素 ( 如 果 集 合 无 序 ， 则 取 任 意 个 元 素 ) 所 组 成 的 集合 
er 获取 除 xs take n 以 外 的 元 素 组 成 的 集合 


xstakeWhile p 


获取 集合 xs 中 满足 谓词 p 的 最 多 的 元 素 所 组 成 的 外 


> 


ay 


xsdropWhile p 


获取 集合 xs 中 除 xs takeWhile p 以 外 的 全 部 元 素 


xs filter p 


获取 集合 xs 中 满足 条 件 p 的 元 素 所 组 成 的 集合 


xswithFilter p 


该 操作 是 non - strict 的 过 滤器 ， 其 后 调用 map, flatMap, foreach 操作 时 ，withFilter 
可 以 使 这 些 操 作 只 作用 于 满足 谓词 p 的 元 素 上 


xsfilterNot p 


方法 


获取 集合 xs 中 不 满足 条 件 p 的 元 素 所 组 成 的 集合 


表 5-9 拆 分 (Subdivision) 的 操作 
说 H 


xssplitAt n 


把 xs 从 指定 位 置 拆 分 成 两 个 集合 (xs take n 和 xs drop n) 


xs span p 


根据 谓词 p 将 xs 拆 分 为 两 个 集合 (xs takeWhile p, xs. dropWhile p) 


xs partition p 


把 xs 分 割 为 两 个 集合 ， 符 合 谓词 p 的 元 素 赋予 一 个 集合 ， 其 余 的 赋予 男 一 个 (xs 
filter p, xs. filterNot p) 


语言 基础 与 开发 实战 


( 续 ) 

Ww ”法 说 明 
Secon 有 HN PRB EGE xs 进行 分 组 ， 返 回 类 型 为 Map ， 其 中 每 个 Key 对 应 分 组 后 

表 5-10 元 素 条 件 查 询 (Element Conditions) 的 操作 
方 法 说 明 
xs forall p 返回 一 个 布尔 值 表示 集合 的 元 素 是 否 都 满足 谓词 p 
xs exists p 返回 一 个 布尔 值 判 断 集合 中 是 否 存在 满足 谓词 p 的 元 素 
xs count p 返回 集合 中 满足 谓词 p 的 元 素 个 数 

表 5-11 if (Fold) 的 操作 

方 # 说 OW 


(2/:xs) (op) 


VA 2 为 初始 值 ， 依 次 连续 地 从 左 到 右 对 集合 中 


AY ICR) 


i 


二 元 操作 op 


(xs:\z)(op) VA z 为 初始 值 ， 依 次 连续 地 从 右 到 左 对 集合 中 的 元 素 应 用 二 元 操作 op 
xs. foldLeft(z) (op) 与 (z /:xs) (op) 相 同 
xs. foldRight(z) (op) 与 (xs:\z)(op) 相 同 


xsreduceLeft op 


依次 连续 地 从 左 到 右 对 非 空 集合 中 的 元 素 应 用 二 元 操作 op 


xsreduceRight op 


X 
Š 
OS 
$ 


续 地 从 右 到 左 对 非 空 集合 


中 的 元 素 应 用 二 元 操作 op 


表 5-12 HURT (Specific Fold) 的 操作 


Fr ç Ž Wo 明 
xs. sum RJE 集合 XS 中 数 值 元 素 的 和 
xs. product 返回 集合 xs 中 数值 元 素 的 积 


合 xs 中 有 序 元 素 值 中 的 最 小 值 


às. mak 集合 xs 中 有 序 元 素 值 中 的 最 大 值 
表 5-13 FRIAS (String) 的 操作 


把 一 个 字符 串 添加 到 StringBuilder 对 象 b 中 ， 


该 字符 串 显 示 


集合 中 的 所 有 元 素 ， 并 


xsaddString (b, start, sep, end) | 以 start 开头 、end 结尾 ， 同 时 元 素 之 间 以 sep 作为 分 隔 符 。 其 中 start, end 和 sep 为 可 
xsmkStrin (start se end) 把 集 ieee 转换 为 一 TERP, 该 字符 集合 中 的 所 有 元 素 ， 并 em 开头 、 
s g (start, sep, e end 结尾 ， 同 时 元 素 之 间 以 sep 作为 分 隔 符 。 其 中 start, end 和 sep 为 可 选 参数 
xs. stringPrefix 返回 一 个 字符 串 该 字符 串 是 集合 xs. toString 4 结果 的 前 级 
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表 5-14 视图 (View) 的 操作 


Wo ā # 说 明 
xs. view 从 集合 xs 生成 一 个 视图 
xs view (from, to) 从 集合 指定 索引 范围 内 的 元 素 生 成 一 个 视图 > 


每 个 集合 类 都 可 以 通过 一 致 的 统一 语法 来 构建 实例 ， 即 通过 类 名 跟 上 参数 来 构建 ， 并 且 
对 应 的 接口 类 构建 实例 时 ， 通常 都 会 构建 出 一 个 默认 的 具体 实现 类 。 下 面 通过 示例 对 集合 类 
构建 的 操作 进行 介绍 。 

【 例 S-1】 构 建 实例 的 代码 示例 。 

构建 的 实例 的 代码 如 下 所 示 ， 从 构建 实例 的 代码 及 其 反馈 信息 中 可 以 看 出 默认 构建 的 集 
BTR: 


// 根 据 输出 的 类 型 信息 可 以 看 出 默认 构建 的 具体 集合 子 类 
//Traversable 构建 的 具体 子 类 为 List 

scala > Traversable(1,2,3) 

res0 :Traversablel Int | = List(1,2,3) 

//\terable 构建 的 具体 子 类 为 List 


scala > Iterable("x" ,"y" ,"z" ) 


resl ; Iterable{ String | = List( x,y,z) 

//Map 构建 实例 时 默认 为 scala. collection. immutable. Map 

scala > Map("x" ->24,"y" ->25,"z" ->26) 

res2 :scala. collection. immutable. Map[ String, Int] = Map(x ->24,y ->25,z-—>26) 
. //Set 构建 实例 时 默认 为 scala. collection. immutable. Set 

scala > Set(1,2,3) 

13. res3 :scala. collection. immutable. Set| Int | = Set(1,2,3) 

14. // 显 式 导入 SortedSet 类 并 构建 实例 


15. scala > import scala. collection. SortedSet 


Soe GO E TEN pm ES 


S 


ies 
N 一 


16. import scala. collection. SortedSet 

17. //SortedSet 构建 的 具体 子 类 为 TreeSet 

18. scala > SortedSet( " hello" ," world" ) 

19. res4 :scala. collection. SortedSet| String | = TreeSet( hello , world) 
20. // ERFA Buffer 类 并 构建 实例 


21. scala > import scala. collection. mutable. Buffer 


22. import scala. collection. mutable. Buffer 

23. //Buffer 构建 的 具体 子 类 为 ArrayBuffer 

24. scala > Buffer(1,2,3) 

25. res5:scala. collection. mutable. Buffer[ Int | = ArrayBuffer(1,2,3) 
26. //IndexedSeq 构建 的 具体 子 类 为 Vector 


Dip 
28. 
29. 
30. 
Sill. 
32h 
33. 
34. 
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scala > IndexedSeq(1.0,2.0) 
res6 :IndexedSeq[ Double | = Vector(1.0,2.0) 
// 显 式 导 入 LinearSeq 类 并 构建 实例 


scala > import scala. collection. LinearSeq 


import scala. collection. LinearSeq 

//LinearSeq 构建 的 具体 子 类 为 List 

scala > LinearSeq(1,2,3) 

res7 :scala. collection. LinearSeq| Int] = List(1,2,3) 


下 面 根据 上 一 节 介 绍 的 集合 的 相关 操作 ， 给 出 部 分 操作 类 型 的 示例 ， 并 进行 简单 的 代码 
分 析 。 对 上 一 节 列 出 的 集合 操作 ， 对 应 在 相应 子 类 上 的 操作 基本 都 是 类 似 的 ， 如 果 后 续 草 节 
中 有 未 给 出 操作 的 实例 ， 可 以 参考 这 里 的 实例 代码 。 

【 例 5-2】 抽 象 方法 的 代码 示例 。 

Traversable 的 抽象 方法 foreach 的 代码 示例 如 下 所 示 : 


1 
2 
3. 
4 
5 


// 遍 历 并 打印 Traversable 中 的 各 个 元 素 
scala > Traversable(1,2,3) foreachprintln 
1 
2 
3 


【 例 5-3】 加 法 运算 (Addition) 的 代码 示例 。 
Traversable 与 一 个 TraversableOnce 集合 相 加 的 代码 示例 如 下 所 示 ， 是 与 一 个 Taversable 
类 或 一 个 迄 代 嚣 (Iterator) 相 加 的 示例 : 


SA thee EO Ne 


// 合 并 Traversable 与 List 中 的 每 个 元 素 

scala > Traversable(1,2,3) List(4,5,6) 
res16:Traversable| Int | = List(1,2,3,4,5,6) 

scala > Traversable(1,2,3) List(4,5 ,6). iterator 
res17;Traversable[ Int | = List(1,2,3,4,5,6) 


【 例 5-4】 映 射 操作 (Maps) 的 代码 示例 。 
Traversable 的 映射 操作 的 代码 示例 如 下 所 示 ， 该 示例 包括 map、flatMap 等 方法 的 代码 : 


re 


// 遍 历 集合 中 的 每 个 元 素 ,并 将 |_*21 函数 作用 在 每 个 元 素 上 

scala > Traversable(1,2,3) map |_*2} 

res10;Traversable[ Int | = List(2,4 ,6) 

// 通 过 map 操作 , 先 查 看 每 个 元 素 转换 后 的 结果 

scala > Traversable( 1,2,3) map {1 to _} 

res12 ; Traversable[ scala. collection. immutable. Range. Inclusive | = List( Range(1) , Range(1,2) , 
Range(1,2,3) ) 

// 在 map 基础 上 理解 flatMap 操作 中 的 扁平 化 效果 
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scala > Traversable(1,2,3)flatMap {1 to _} 
9. resll:Traversable[ Int] =List(1,1,2,1,2,3) 
10. // 先 定义 偏 函 数 pf, 遍 历 集合 元 素 ,并 将 pf 作用 在 元 素 上 
11. // 返 回 在 pf 中 定义 域内 返回 的 结果 值 S 
12. scala > valpf:PartialFunction| Int, String] = | case 1 =>" one" | 
13. Traversable( 1,2,3 ). collect( pf) 
14. pf; PartialFunction[ Int, String | =< function1 > 


15. res13 ; Traversable[ String | = List( one) 
16. //case 匹配 语句 对 应 偏 函数 ,可 以 简化 上 面 的 代码 
17. scala > Traversable(1,2,3). collect| case 1 =>"one" | 


18. res14 ; Traversable[ String | = List( one) 


【 例 5-5) 转换 操作 (Conversions) 的 代码 示例 。 
Traversable 的 转换 操作 的 代码 示例 ， 包 括 toArray 、toList 等 方法 的 代码 ， 示 例 代码 如 下 所 示 : 


= 


// 注 意 对 应 方法 所 返回 的 结果 类 型 
// 或 为 Array ,或 为 List 等 

scala > Traversable(1 ,2,3). toArray 
res15 ; Array| Int] = Array( 1,2,3) 
scala > Traversable( 1,2,3). toList 
res16;List[ Int] = List( 1,2,3) 

scala > Traversable( 1 ,2,3 ). tolterable 
res17 :Iterablel Int] = List( 1,2,3) 

scala > Traversable( 1 ,2,3 ). toSeq 

res18 ; Seq[ Int] = List( 1,2,3) 

scala > Traversable( 1 ,2 ,3 ). toIndexedSeq 


SOLAS S eN TAS a TEE ee 


=. = = 
SS 


res19 ; scala. collection. immutable. IndexedSeq| Int] = Vector(1 ,2 ,3) 


ep 


scala > Traversable( 1 ,2,3). toStream 
res20 ; Stream| Int] = Stream( 1 ,?) 


一 一 
Area 


scala > Traversable(1 ,2 ,3). toSet 


D 


res21 ; scala. collection. immutable. Set[ Int] = Set( 1,2,3) 
// 当 元 素 类 型 并 非 键 / 值 对 时 的 错误 信息 
// 控 制 台 < console > 中 的 error 信息 

scala > Traversable( 1,2,3 ). toMap 


= 


N ë e e 
2S & Es 


< console > ;11;error; Cannot prove that Int <: < (T,U). 
. Traversable( 1,2,3). toMap 
. // 对 应 元 素 类 型 为 键 / 值 对 时 的 类 型 转换 


scala > Traversable(1 -> " one" ,2 —>"two" ,3 -> " three" ). toMap 


N N N 
D N= 


24. res23 :scala. collection. immutable. Map| Int, String] = Map( 1 -> one ,2 ->two,3 —> three) 
[B] S-6】 复 制 操作 (Copying) 的 代码 示例 。 
Traversable 的 复制 操作 的 代码 示例 ， 包 括 copyToArray copyToBuffer 等 方法 的 代码 ， 示 
例 代码 如 下 所 示 : 


语言 基础 与 开发 实战 


// 复 制 到 数组 的 方法 使 用 
// 复 制 到 数组 的 1 下 标的 开始 位 置 ,最 多 复制 3 个 
scala > val b :Array[ Int] = new Array(5) 
Traversable( 1,2,3). copyToArray(b,1,3) 

scala>b 

res35 ; Array| Int | = Array(0,1,2,3 ,0) 

val c;ArrayBuffer[ Int] = ArrayBuffer( ) 

b;Array[ Int] = Array(0,0,0,0,0) 

// 复 制 到 Buffer 的 方法 使 用 

// 需 要 先导 入 ArrayBuffer 类 


. scala > import scala. collection. mutable. ArrayBuffer 


1. 
2: 
3. 
4. 
5. 
6. 
元 
8. 
9. 


=. = = 
Soe A 


import scala. collection. mutable. ArrayBuffer 


Sa 


scala > c:scala. collection. mutable. ArrayBuffer[ Int | = ArrayBuffer( ) 


= 


scala > Traversable(1 ,2 ,3 ). copyToBuffer(c) 


a 


scala >c 


16. res42 :scala. collection. mutable. ArrayBuffer| Int] = ArrayBuffer(1 ,2 ,3) 


【 例 5-7] 元素 检索 操作 (Element Retrieval) 的 代码 示例 。 
Traversable 的 元 素 检索 操作 的 代码 示例 ， 包 括 head, last 等 方法 的 代码 ， 示 例 代 码 如 下 所 示 : 


1. ”// 对 集合 的 元 素 检索 ,注意 返回 类 型 ,如 果 是 Some 或 None, , 则 对 应 Option 
2. // 对 应 返回 结果 非 Option 时 ,需要 注意 ,比如 head 操作 , 当 集 合 为 空 时 ,会 抛 出 java. util. 
NoSuchElementException 异常 

scala > Traversable(1,2,3 ). head 

res48 ; Int = 1 


3 

4 

5. scala > Traversable(1 ,2 ,3 ). headOption 
6. res49.;Option[ Int | =Some(1 ) 

7. scala > Traversable(1 ,2 ,3 ). last 

8 res50 ; Int =3 

9. scala > Traversable(1 ,2 ,3). lastOption 
10. res51;Option[ Int] =Some(3 ) 

11. 

12. // 取 集合 中 为 偶数 的 元 素 

13. scala >Traversable(1,2,3) find | % 2==0| 
14. res52;Option[ Int | =Some(2) 


【 例 S-8】 获 取 子 集合 操作 (Subcollection) 的 代码 示例 。 


Traversable 的 获取 子 集合 操作 的 代码 示例 ， 包 括 tail, init 等 方法 的 代码 ， 示 例 代 码 如 下 
所 示 : 


1. /获取 除 head 元 素 外 的 其 他 元 素 组 成 的 子 集 合 
2. scala >Traversable(1,2,3) .tail 
3. res63:Traversable[ Int] = List(2 ,3) 


第 5 章 


scala > Traversable(1,2,3) . init 
res64 ; Traversable[ Int | = List( 1,2) 


// 取 指定 索引 范围 内 的 集合 元 素 所 构建 的 子 集合 S 
/注意 切片 的 索引 为 左 财 右 开 Lm,n) 区 间 

scala > Traversable(1,2,3) slice (1,2) 

res65 ; Traversable| Int | = List(2) 

scala > Traversable(1,2,3) take 1 

res66 ; Traversable[ Int | = List(1) 

scala > Traversable(1,2,3) drop 2 

res67 ; Traversable[ Int | = List(3) 


// 从 下 面 例子 中 ,理解 :从 第 一 个 开始 判断 ,获取 满足 条 件 的 连续 的 最 多 元 素 
scala > Traversable(1,2,3)takeWhile |_ % 2==0| 

res68 : Traversable| Int | = List( ) 

scala > Traversable(1,2,3)takeWhile |_ % 2 ==1} 

res69 ; Traversable[ Int | = List(1) 

scala > Traversable(1,5,7,2,3)takeWhile {_ % 2 ==1} 

res70 :Traversable[ Int] = List(1,5 ,7) 


scala > Traversable(1,2,3) dropWhile |_ % 2 ==0} 
res71:Traversable| Int] = List(1 ,2 ,3) 

scala > Traversable(1,2,3) filter |_ % 2 ==0} 
res72 ; Traversable[ Int | = List(2) 


// 注 意 返 回 类 型 为 WithFilter 类 ,后续 使 用 map 等 操作 时 ,对 应 该 类 的 apply 方法 
// 即 withFilter 操作 是 惰性 的 
scala > Traversable(1,2,3)withFilter |_ % 2 ==0} 


res73 : scala. collection. generic. FilterMonadic| Int, Traversable[ Int | | = scala. collection. Travers- 
ableLike$ WithFilter 
@ 19ff2c83 


scala > Traversable(1 ,2 ,3 ) filterNot |_ % 2 ==0} 
res74 ; Traversable[ Int | = List(1 ,3 ) 


【 例 S-9】 拆 分 操作 (Subdivision) 的 代码 示例 。 
Traversable 的 拆 分 操作 的 代码 示例 ， 包 括 splitAt、span 等 方法 的 代码 ， 示 例 代码 如 下 所 示 : 


1 
2 
3, 
4 


// 指 定 索引 位 置 进 行 切 分 
scala > Traversable(1,2,3)splitAt 2 
res75 ; ( Traversable[ Int | ,Traversable[ Int | ) = ( List(1,2) , List(3) ) 


语言 基础 与 开发 实战 


// 根 据 指 定 谓词 进行 拆 分 
scala > Traversable(1,2,3) span {_ % 2==0| 


scala > Traversable(1,2,3) partition |_ % 2 ==0} 


5 

6. 

7. ves76; (Traversable[ Int | , Traversable| Int] ) = (List( ) , List(1,2 ,3) ) 
8 

9. res77:(Traversable[ Int | ,Traversable[ Int] ) = ( List(2) , List(1,3) ) 


11， 信 根据 奇偶 将 元 素 进 行 分 组 
12. scala > Traversable(1,2,3) groupBy |_ % 2} 
13. res78:scala. collection. immutable. Map[ Int ,Traversable| Int] ] =Map(1 -> List(1,3) ,0 —> List(2) ) 


【 例 5-10】 折 又 操 作 (Fold) 的 代码 示例 。 
Traversable 的 折 丢 操作 的 代码 示例 ， 包 括 splitAt、span 等 方法 的 代码 ， 示 例 代码 如 下 所 示 : 


// 以 z=0 为 初始 值 ,op = (_+_) 为 二 元 操作 ,进行 折 双 操作 
// 依 次 从 集合 中 取出 一 个 元 素 ,和 z 进行 op 操作 

// 操 作 后 更 新 z, 人 然后 继续 以 集合 中 的 下 一 个 元 素 重 复 上 述 操作 
/A 下列 操 作 差 异 点 : 

// 1. 取 元 素 的 方式 是 从 左 到 右 还 是 从 右 到 左 

// 2. 是 否 有 初始 值 

scala > (0 / :Traversable(1,2,3))(_+_) 

res99 :Int =6 

scala > ( Traversable( 1,2,3) :\0)(_+_) 

res100 ; Int =6 

. scala > Traversable( 1,2,3). foldLeft(0) (_ +_) 

resl01 ; Int =6 

scala > Traversable( 1 ,2,3 ). foldRight(0)(_+_) 

res102 :Int =6 

scala > Traversable( 1 ,2,3 ) reduceLeft (_+_) 

res103 ; Int =6 

scala > Traversable( 1 ,2 ,3 ) reduceRight (_+_) 

18. res104;Int=6 


[B] 5-11) 字符 串 相关 操作 (String) 的 代码 示例 。 


Traversable 的 字符 串 相 关 操 作 的 代码 示例 ， 包 括 addString 、mkString 等 方法 的 代码 ， 示 
例 代码 如 下 所 示 : 


NO Ba GS GN A a a Se 


=. = =e = =e eee 
TEA EE ge et LSS E 


scala > val b = new StringBuilder( ) 
b : StringBuilder = 


scala > Traversable(1,2,3) addString (b,"{","1","}") 
res108 : StringBuilder = {11213} 


1 

2 

3. 

4. ”// 注 意 以 下 两 种 方法 的 返回 类 型 

5 

6 

7. scala > Traversable( 1,2,3 )mkString ("{","1","}") 
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8. res109:String= {11213} 


9. 


10. 
11. 
12. 
13. 
14. 


// 比 较 stringPrefix 与 toString 的 结 i 
scala > Traversable( 1 ,2,3 ). toString © | 
res110 : String = List(1,2,3) š 
scala > Traversable( 1 ,2,3). stringPrefix 
resl11 ; String = List 


[B] 5-12] WERE (View) 的 代码 示例 。 
以 下 是 View 的 视图 操作 的 代码 示例 ， 示 例 代码 如 下 所 示 : 


1 
2 
3 
4 
5. 
6 
7 
8 


// 视 图 的 构建 


scala > Traversable(1 ,2 ,3). view 


res116 ; scala. collection. TraversableView| Int, Traversable[ Int] ] =SeqView(... ) 


scala > Traversable( 1,2 ,3). view( 1,2) 


res117 ; scala. collection. TraversableView| Int, Traversable[ Int] | =SeqViewS(... ) 


// 视 图 有 点 类 似 于 Spark 的 转换 操作 ,记录 了 中 间 的 各 个 操作 ,比如 map filter 等 ,只 在 触发 


执行 或 调用 force 时 才 真 正 执行 


9i 
10. 


5.2 


5.2.1 


数学 上 ， 


scala > Traversable(1,2,3). view. map(_ * 2). filter(_ >3) 
res119 scala. collection. TraversableView| Int, Traversable[ _] ] =SeqViewMF(... ) 


. scala > Traversable( 1,2,3). view. map(_ * 2). filter(_ >3). foreach( println) 


4 

6 

scala > Traversable(1,2 ,3). view. map(_ * 2). filter(_ >3). force 
res121 :Traversable[ Int | = List(4,6) 


序列 (Seq) 


序列 的 概述 È 


序列 是 被 排 成 一 列 的 对 象 ， 每 个 元 素 不 是 在 其 他 元 素 之 前 ， 就 是 在 其 他 元 素 之 


后 。 在 Scala 中 ， 使 用 trait Seq 来 表示 序列 。 由 于 序列 是 有 序 的 ， 因 此 可 以 迭代 访问 其 中 的 
每 个 元 素 ， 在 Scala 中 ， 序 列 元 素 对 应 的 索引 位 置 以 0 开始 计数 。 

特质 (trait) Seq 基于 不 同 的 性 能 需求 ， 给 出 了 两 个 子 特质 (subtrait) : LinearSeq 和 In- 
dexedSeq。 它 们 不 添加 任何 新 的 操作 ,但 都 提供 了 不 同 的 性 能 特点 : 线性 序列 具有 高 效 的 
head 和 tail 操作 ， 而 索引 序列 具有 高 效 的 apply, length 和 (如果 可 变 ) update 操作 。 


语言 基础 与 开发 实战 


在 Scala 集合 类 库 中 ,序列 同样 包含 可 变 序 列 和 不 可 变 序列 。 其 中 ,不 可 变 序列 的 类 图 
WA 5-5 所 示 ， 可 变 序列 的 类 图 如 下 图 5-6 所 示 。 


IndexedSeq 


LinearSeq 


图 5-5 scala. collection. mutable 包 中 不 可 变 序列 类 的 类 图 


Seq 


IndexedSeq 


ArraySeq 
StringBuilder SynchronizedStack LinkedList 
ArrayBuffer Synchronized Buffer MutableList DoubleLinkedList 


ObservableBuffer SynchronizedPriotityQueue 
SynchronizedQueue 


5-6 scala. collection. mutable 包 中 可 变 序 列 类 的 类 图 


SF) 序列 的 相关 操作 


下 面 参考 官网 的 接口 分 类 ， 分 别 对 Seq 特质 提供 的 各 个 接口 进行 介绍 。 具 体 说 明 如 
K 5-15 BZ 5-22 所 示 。 


5-15 索引 和 长 度 的 操作 


方 ”法 说 明 
xs(i) 或 者 写成 xs apply i, xs 中 索引 为 i 的 元 素 
xsisDefinedAt i 测试 xs. indices 中 是 否 包含 
xs. length 序列 的 长 度 (I size) 


WER xs 的 长 度 小 于 ys 的 长 度 ， 则 返回 -1; 如 果 xs 的 长 度 大 于 ys 的 长 度 ， 则 返回 
+1; 如 果 它 们 的 长 度 相等 ， 则 返回 0。 即 使 其 中 一 个 序列 是 无 限 的 ， 该 方法 也 有 效 


的 索引 范围 ， 从 0 到 xs. length -1 


xs. lengthCompare ys 


xs. indices x 


a 


表 5-16 索引 搜索 的 操作 
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方 法 说 H 

xsindexOf x 返回 序列 xs 中 第 一 个 等 于 x 的 元 素 的 索引 (存在 多 种 变 体 ) 
xslastIndexOf x 返回 序列 xs 中 最 后 一 个 等 于 x 的 元 素 的 索引 (存在 多 种 变 体 ) > 
xsindexOfSlice ys 返回 序列 xs 中 第 一 个 包含 ys 序列 元 素 的 子 序列 的 索引 


xslastIndexOfSlice ys 


isa 
psi 
Hr 
x 
tal 
wn 
a 


s 中 最 后 一 个 包含 ys 序列 元 素 的 子 序列 的 索引 


xsindexWhere p 


g 
s 中 第 一 个 


ii 
a 
Ht 
& 
i 
= 


满足 谓词 p 的 元 素 的 索引 (存在 多 种 变 体 ) 


xssegmentLength( p,i) 


ii 
kal 
tt 
& 
i 
= 


s, Mxs (i) FWJ 


满足 条 件 p 的 元 素 的 最 长 连续 片段 的 长 度 


xsprefixLength p 返回 序列 xs 中 ， 满 足 p 条 件 的 先头 元 素 的 最 大 个 数 
表 5-17 加 法 运算 
Jo ”法 说 WA 
X+: xs 在 序列 xs 的 前 面 添加 x 所 得 的 新 序列 
xs; +x 在 序列 xs 的 后 面 追 加 x 所 得 的 新 序列 


xspadTo (len, x) 


方 ” 法 


高 


表 5-18 


更 新 的 操作 
说 


可 的 新 序列 是 在 xs 后 方 追 加 x， 直到 序列 长 度 达 到 len 


明 


xs patch(i,ys,r) 


将 xs 中 第 ;个 元 素 开 始 的 > ATER, BEBO ys 所 得 的 序列 


xs updated (i, x) 


将 xs 中 第 ;个 元 素 替 换 为 x 后 所 得 的 xs 的 副本 


xs(i) =x 或 写作 xs. update (i，x) ， 仅 适用 于 可 变 序列 。 将 xs 序列 中 第 i 个 元 素 修 改 为 x 
表 5-19 排序 的 操作 

方 法 说 明 

xs. sorted 对 序列 xs 的 元 素 以 标准 顺序 进行 排序 所 得 到 的 新 序列 


xssortWith It 


对 序列 xs 的 元 素 以 指定 le 函数 进行 排序 所 得 到 的 新 序列 


对 序列 xs 的 元 素 进行 


非 序 后 所 得 到 的 新 序列 。 将 f 函数 作用 于 参与 比较 的 两 个 元 


oy 素 ， 以 对 得 到 的 两 个 结果 进行 比较 
5-20 反 转 的 操作 
方 ” 法 说 明 
xs. reverse 与 xs 序列 元 素 顺 序 相 反 的 一 个 新 序列 
xs. reverselterator 获取 序列 XS 的 反 序 迭代 器 


xsreverseMap f 


反 序 遍历 序列 xs 的 元 素 ， 并 将 上 函数 作用 于 每 个 元 素 上 所 得 到 的 新 序列 


表 5-21 比较 的 操作 
方 法 说 明 
xsstartsWith ys 测试 序列 xs 是 否 以 序列 ys 开头 (存在 多 种 变 体 ) 
xsendsWith ys 测试 序列 xs 是 否 以 序列 ys 结束 (存在 多 种 变 体 ) 


XS contains x 


测试 xs 序列 中 是 否 存 


在 一 个 与 x 相等 的 元 素 


xscontainsSlice ys 


测试 xs 序列 中 是 否 存 


在 一 个 与 ys 相同 的 连续 子 序列 


(xs corresponds ys) (p) 


测试 序列 xs 与 序列 ys 中 对 应 的 元 素 是 否 满足 二 元 的 判断 式 p 


语言 基础 与 开发 实战 


表 5-22 多 集 操作 的 操作 


方 法 说 OW 
xs intersect ys 序列 xs 和 ys 的 交集 ， 并 保留 序列 xs 中 的 顺序 
xs diff ys 序列 xs 和 ys 的 差 集 ， 并 保留 序列 xs 中 的 顺序 
xs union ys 并 集 ; 同 xs ++ys 
xs. distinct 对 序列 xs 去 除 重复 元 素 后 所 得 到 的 子 序列 


eee | 序列 的 操作 示例 ) 


下 面 根据 上 一 节 给 出 的 序列 的 相关 操作 ， 对 部 分 操作 类 型 通过 示例 进行 简单 的 代码 


分 析 。 


【 例 S-13】 索引 搜索 操作 的 代码 示例 。 
本 示例 为 序列 的 索引 搜索 操作 的 代码 实例 ， 示 例 代码 包括 indices, indexOf 等 方法 : 


NO ed SGN ea a: ee ee 


=. =e =e = 
2 


14. 


// 索 引 下 标 从 0 开始 

scala > val xs = Seq(1,2,3,4,5,6,7,1,2,3,4,5,6) 

xs:Seq[ Int] =List(1,2,3,4,5,6,7,1,2,3,4,5,6) 

scala > xs. indices 

res19 ; scala. collection. immutable. Range = Range(0,1,2,3,4,5,6,7,8,9,10,11,12) 


scala > xsindexOf 3 
res20 ; Int =2 

scala > xslastIndexOf 3 
res21 :Int =9 


. scala > xsindexOfSlice Seq(3 ,4,5) 


res22 ; Int =2 

scala > xslastIndexOfSlice Seq(3 ,4,5 ) 
res23 ; Int =9 

scala > xsindexWhere {_ % 3 ==0} 
res24 ; Int =2 


// 从 第 二 个 参数 指定 的 索引 位 置 开 始 ,查找 满足 条 件 的 连续 的 元 素 片段 
// 然 后 返回 该 片段 的 长 度 
scala > val xs = Seq(1,2,3,4,5,6,7,1,2,3,4,5,6) 


. xs:Seq[ Int] =List(1,2,3,4,5,6,7,1,2,3,4,5,6) 


. // 这 里 的 drop 操作 只 是 获取 开始 查找 的 集合 有 效 范围 


// 并 不 会 修改 不 可 变 的 集合 本 身 


. scala >xs. drop(1) 


res15 :Seq[ Int] = List(2,3,4,5,6,7,1,2,3,4,5,6) 


X, 
28. 
29. 
30. 
31. 
P, 
33. 
34. 
35. 
36. 
37. 
38. 
39. 
40. 
Al. 
42. 
43. 
44. 
45. 
46. 


// BR :2,3,4,5,6,7 
scala > xssegmentLength (_ >1,1) 
resl3:Int =6 


scala > val xs = Seq(1,2,3,4,5,6,7,1,2,3,4,5,6) 
xs:Seq{ Int] = List(1,2,3,4,5,6,7,1,2,3,4,5,6) 
scala > xssegmentLength (_ >2,1) 

resl6:Int =0 


// 最 开始 就 符合 条 件 的 连续 的 元 素 最 多 个 数 
//prefixLength 为 segmentLength(p,0) 的 缩写 形式 
// 参 考 前 面 的 drop ,segmentLength 操作 
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//1. 第 一 个 元 素 符合 ,继续 判断 ,直到 不 符合 条 件 的 元 素 2 为 止 


scala >Seq(1,1,1,2,1,1) prefixLength |_ % 2 ==1} 
res29 ; Int =3 


//2. 第 一 个 元 素 已 经 不 符合 条 件 
scala >Seq(2,1,1,2,1,1) prefixLength |_ % 2 ==1} 
res30 ; Int =0 


【 例 S-14】 加 法 运算 的 代码 示例 。 
本 示例 为 序列 的 加 法 运算 的 代码 实例 ， 包 括 添 加 集合 、 添 加 元 素 等 ， 示 例 代 码 如 下 


所 示 : 


RO FO ae dr aie Sega 


=. =e =e = 
ES O E E 


14. 


// 添 加 集合 .添加 元 素 

scala >1 + :Seq(3,4,5) 

res3 :Seq| Int] = List( 1,3,4,5) 
scala >Seq(3,4,5) : +1 
res4:Seq| Int] = List(3 ,4,5,1) 


// 注 意 padTo 参数 len 指 的 是 扩展 后 的 序列 长 度 

// 如 果 len 参数 值 等 于 或 小 于 原 集合 长 度 , 则 不 做 扩展 
scala >Seq(3,4,5) padTo (3,6) 

res5 :Seq| Int | = List(3 ,4,5) 


. scala >Seq(3,4,5) padTo (4,6) 


res6 :Seq| Int | = List(3 ,4,5,6) 
scala >Seq(3,4,5) padTo (2,6) 
res7 :Seq| Int | = List(3 ,4,5) 


【 例 5-15】 更 新 操作 的 代码 示例 。 
本 示例 为 序列 元 素 更 新 操作 的 代码 实例 ， 包 括 patch 、updated 等 方法 的 代码 ， 示 例 代码 


如 下 所 示 : 


So ed BS ee as ge A T 


N N N Ss Ty iS) RY Sy SSS SS eS eS SS 一 
NAAR HBNSSSSHXADARHONS S 
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// 注 意 替 换 的 起 始 索引 位 置 

// 用 Seq(1,2) 替 换 Seq(6,7,8) 的 从 下 标 为 1( 即 元 素 为 7) 开 始 
// 个 数 为 参数 + 指定 的 两 个 元 素 ( 即 替换 7、8 两 个 ) 

scala > Seq(6,7,8) patch (1,Seq(1,2) ,2) 

res15 :Seq[ Int] = List(6,1,2) 


// 当 起 始 下 标 大 于 、 等 于 原 序列 的 元 素 长 度 ( 即 起 始 位 置 位 于 

// 序 列 最 后 一 个 元 素 之 后 ) 时 ,直接 添加 Seq(1,2) ,而 原 序列 没有 元 素 被 蔡 换 
scala >Seq(6,7,8) patch (3,Seq(1,2) ,2) 

resl6:Seq| Int] = List(6,7,8,1,2) 


/指定 索引 位 置 的 元 素 被 替换 为 第 二 个 参数 的 值 


. scala >Seq(6,7,8) updated (2,1) 


res17;Seq| Int] = List(6,7,1) 


/7/ 当 索引 位 置 超出 序列 范围 , 则 抛 出 异常 Unsupported OperationException 


. scala >Seq(6,7,8) updated (3,1) 


java. lang. UnsupportedOperationException ; empty. tail 


.// 注 意 :(x) 或 update 针对 可 变 序列 , 即 需要 在 原 序 列 上 进行 修改 
. scala > import scala. collection. mutable 
. import scala. collection. mutable 


. scala > mutable. Seq(6,7,8) (1) =1 


. // 同 样 的 , 当 索 引 位 置 超出 序列 范围 ,会 抛 出 异常 IndexOutOfBoundsException 


scala > mutable. Seq(6,7,8) (3) =1 


. java. lang. IndexOutOfBoundsException :3 
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【 例 5-16) 排序 操作 的 代码 示例 。 


本 示例 为 对 序列 元 素 进行 排序 的 代码 示例 ， 包 括 sorted, sortWith 等 方法 的 代码 ， 示例 


代码 如 下 所 示 : 


No Sa Sh ON A ge DS 


scala > valxss = Seq(1,2,3,4,5,6,7,1,2,3,4,5,6) 
xss:Seq[ Int] =List(1,2,3,4,5,6,7,1,2,3,4,5,6) 
scala > xss. sorted 


res2 :Seql Int] = List(1,1,2,2,3,3,4,4,5,5,6,6,7) 


// 根 据 sortWith 参数 定义 lt 函数 
scala > val lt = (a:Int,b:Int) => -a < -b 
lt: (Int, Int) => Boolean =< function2 > 


scala > xss sortWith lt 


10. 
11. 
12. 
13. 
14. 
15. 
16. 
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24. 


res3 :Seq[ Int] =List(7,6,6,5,5,4,4,3,3,2,2,1,1) 


三 
里 


// 使 用 简化 的 函数 字 首 


scala >xss sortWith | — 


| 
res4 :Seq[ Int] =List(7,6,6,5,5,4,4,3,3,2,2,1,1) 


// 根 据 sortBy 参数 定义 lt 函数 

scala > val f=(a:Int) => -a 

f: Int => Int =< function! > 

scala > xss sortBy f 

res5 :Seq[ Int] =List(7,6,6,5,5,4,4,3,3,2,2,1,1) 


// 使 用 简化 的 函数 字面 量 
scala > xss sortBy | —_} 
resl0:Seql Int] =List(7,6,6,5,5,4,4,3,3,2,2,1,1) 


【 例 S-17】 反 转 操作 的 代码 示例 。 
本 示例 为 对 序列 元 素 进 行 反 转 的 代码 实例 ， 包 括 reverse, reverselterator 等 方法 的 代码 ， 
示例 代码 如 下 所 示 : 


SN A A nr A 


=. = =e = = 
Mr a a 


16. 


scala > Seq(3,4,5) . reverse 
resl2 :Seq[ Int] = List(5 ,4,3) 


// 获 取 反 序 迭 代 器 ,并 打印 各 个 元 素 

scala > Seq(3,4,5) . reverselterator 

res13 ; Iterator{ Int] = non — empty iterator 

scala >Seq(3,4,5) . reverselterator foreach println 
5 

4 

3 


// 反 序 遍 历 , 并 且 对 每 个 元 素 求 平方 值 


scala > import scala. math. _ 


import scala. math. _ 
scala >Seq(3,4,5) reverseMap | pow(2,_) } 
resll :Seq[ Double | = List(32. 0,16. 0,8. 0) 


【 例 5-18) 比较 操作 的 代码 示例 。 
本 示例 为 对 序列 元 素 进行 比较 的 代码 实例 ， 定 义 元 素 的 二 元 判断 函数 ， 并 在 比较 方法 中 
使 用 的 示例 代码 如 下 所 示 : 


1. 
Ds 


// 对 应 元 素 的 二 元 判断 函数 


scala > val p=(a:Int,b:Int) =>a +1 ==b 


laran 


a 


5: CMA 


© 
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p: (Int, Int) => Boolean =<function2 > 


scala > (Seq(3,4,5) corresponds Seq(4,5,6) ) (p) 


// 简 化 ,使 用 函数 字面 量 , 有 一 个 元 素 不 符合 二 元 判断 函数 , 则 返回 false 
scala > (Seq(3,5,5) corresponds Seq(4,5,6))(_+1 ==_ 
10. res19 ; Boolean = false 


3 
4 
5 
6. res18 ; Boolean = true 
7 
8 
9 


paca 列表 (List) 


SS 列表 的 概述 


Array, List, Queue, Stack 通常 是 使 用 得 比较 频繁 的 集合 类 。 由 于 Scala 中 List 集合 相 
比 在 Java、C ++ 等 编程 语言 中 有 点 特殊 ， 因 此 针对 列表 List 专门 进行 讲解 。 

从 上 一 节 序 列 Seq 部 分 可 知 ，List 继承 了 序列 Seq 的 子 类 LinearSeq， 即 List 是 一 个 线性 
的 序列 集合 ， 具 有 高 效 的 head 和 tail 操作 。 对 应 的 Array 继承 了 IndexedSeq, ， 即 带 索 引 的 序 
列 ， 可 以 基于 索引 快速 随机 访问 元 素 。 列 表 List 和 数组 Array 非常 类 似 ， 但 两 者 存在 以 下 两 
点 差异 : 

o 首先 ， 列 表 t 是 不 可 变 的 集合 类 ， 即 不 能 修改 列表 的 元 素 。 

。 其 次 ， 列 表 具 有 递归 结构 ， 而 数组 是 连续 的 。 

和 数组 一 样 ， 列 表 也 是 同 质 的 (homogeneous) ， 即 列表 的 所 有 元 素 都 具有 相同 的 类 型 。 

空 列表 的 类 型 是 List[ Nothing] ， 同 时 List 集合 类 是 协 变 的 ， 由 于 Nothing 是 Scala 中 所 有 
类 型 的 子 类 ， 因 此 对 应 的 List[ Nothing] 空 列表 ， 是 其 他 任意 List[ T] 类 型 的 子 类 。 


SOD 列表 的 相关 操作 


由 于 List 也 继承 了 Seq 的 接口 ， 因 此 大 部 分 的 操作 实例 类 似 ， 这 里 就 不 重复 这 些 实 人 f 
了 。 只 针对 与 List 有 关 的 一 些 比较 重要 的 操作 给 出 实例 并 加 以 解析 。 

1. 列表 的 初始 构建 操作 

在 Scala 的 包 对 象 中 ， 也 提供 了 List 的 别名 定义 ， 因 此 列表 可 以 通过 以 下 两 种 形式 定义 : 

è scala. List[ T], 

e List[ T] . 

别名 定义 的 代码 如 下 所 示 : 


= 


1. package object scala | 
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3. type List[ +A] = scala. collection. immutable. List[ A ] 

4. val List = scala. collection. immutable. List 

5. 

6. val Nil = scala. collection. immutable. Nil 

Ə 
2. 列表 的 基础 构建 块 的 操作 

所 有 列表 都 可 以 通过 下 面 两 个 构建 块 来 构建 ; 

e Nil ( 空 列表 ) 。 

© :: (cons); 中 绥 操 作 符 ， 遵 循 右 结合 规则 。 

其 中 ,:: 是 右 结合 性 的 操作 ， 即 如 下 3 种 形式 的 代码 结果 是 一 样 的 : 


1. 1::2::3::Nil 
2. 1::(2::(3::Nil) ) 
3. Nil. ::(3). :(2). ::(1) 


3. 在 列表 中 ， 操 作 都 是 基于 以 下 3 个 操作 来 实现 的 

e head: 列表 的 第 一 个 元 素 。 

e tail: 列表 中 除 第 一 个 元 素 外 ， 其 他 元 素 组 成 的 列表 。 

® isEmpty. 

4, 列表 中 的 模式 匹配 操作 

在 模式 匹配 中 解构 一 个 列表 的 党 用 形式 如 下 : 

e Nil; Nil 常量 。 

ex:: xs: 该 模式 对 应 一 个 以 x 开 头 、 以 xs 结尾 的 列表 。 

e List (xl, x2, «+, xn); 该 模式 等 同 于 xl:: x22: …. xn:: Nil, 


列表 的 操作 示例 


以 下 示例 给 出 了 列表 操作 中 几 种 比较 常见 的 使 用 场景 。 包 括 : 初始 列表 构建 操作 、 列 表 
的 3 个 基本 操作 、 列 表 模 式 匹配 操作 。 

【 例 S-19】 初 始 列 表 构 建 操作 的 示例 。 

列表 的 初始 构建 代码 ， 包 含 空 列 表 、 不 同 元 素 类 型 的 列表 ， 以 及 列表 藤 套 等 形式 ， 示 例 
代码 如 下 所 示 : 


// 空 列表 , 即 不 包含 任何 元 素 ,其 类 型 推断 为 Nothing 
scala > List( ) 
res0 :List[ Nothing | = List( ) 


// 包 含 元 素 1 ,推断 的 元 素 类 型 为 Int 
scala > List(1) 
resl ; List{ Int] = List(1) 


pa AS HE eee Le i 
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9. // 包 含 元 素 "a" 和 "b" ,推断 的 元 素 类 型 为 String 
10. scala > List("a" ,"b" ) 
11. res2;List[ String] = List(a,b) 


13. scala > List( List(0) ,List(1) ) 
14. res3 :List[ List| Int] ] =List(List(0) ,List(1) ) 


16，// 表 示 空 列表 的 Nil 对 象 
17. scala > Nil 


18. resl :scala. collection. immutable. Nil. type = List( ) 


20. scala > List( ) == Nil 


21. res2; Boolean = true 


【 例 5-20] 3 个 基本 操作 的 示例 。 
描述 了 列表 的 3 个 基本 操作 : 获取 第 一 个 元 素 、 获 取 除 第 一 个 元 素 外 的 其 他 元 素 、 空 表 
调用 的 代码 ， 包 含 head tail 等 方法 的 代码 ， 示 例 代码 如 下 所 示 : 


// 获 取 第 一 个 元 素 
scala > List(0,1,2). head 
res7:Int =0 


// 获 取 除 第 一 个 元 素 外 的 其 他 元 素 组 成 的 子 集合 
scala > List(0,1 ,2). tail 
res8 ; List| Int | = List(1 ,2) 


SD A ale het eh A Ce 


scala > List(0,1,2). tail. head 
res9 ; Int = 1 


=. = = 
SS E 


// 空 表 调 用 head 或 tail 会 抛 出 异常 
scala > List( ). head 


14. java. util. NoSuchElementException: head of empty list 


【 例 5-21) 列表 模式 匹配 的 代码 示例 。 
这 里 以 简单 的 搬入 排序 为 例 ， 给 出 模式 匹配 的 示例 代码 : 


/注意 ,对 于 递归 函数 ,Scala 无 法 推断 类 型 ,因此 需要 添加 返回 类 型 


1 

2. scala > def insert(x;Int,xs;List{ Int] ) :List[ Int] =xs match | 
3. /如 果 是 空 列表 , 则 直接 添加 

4. case Nil =>x::Nil 
5 

6 


// 如 果 不 是 空 列表 ,根据 列表 第 一 个 值 和 要 插入 的 值 进行 比较 
// 当 插入 值 小 于 、 等 于 第 一 个 时 ,直接 在 列表 前 面 加 入 


7. // 当 插入 值 大 于 第 一 个 值 时 ,继续 将 插入 值 递归 插入 后 续 列表 (tail) 


8. // 然 后 , 原 列表 第 一 个 值 作为 新 的 第 一 个 元 素 : : 即 可 。 
9. | case y::ys=>if(x < =y) x::xs else y; :insert(x, ys) 
10. leet 

11. insert; (x;Int,xs;List[ Int | ) List| Int ] 
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13. scala > def sort(xs:List[ Int] ) :List| Int] =xs match | 


14. // 如 果 是 空 列表 , 则 无 须 排序 ,直接 返回 


15. | case Nil => Nil 

16. | case y::ys => insert(y,sort(ys) ) 
17. let 

18. sort: (xs; List| Int] ) List[ Int] 

19. 


20. scala >sort(List(1,3,5,2,4) ) 
21. resl4:List| Int] = List(1,2,3,4,5) 


EER 集 (Set) 


在 Scala 中 ， 使 用 trait Set [A] 来 表示 集 。Set 集合 类 最 大 的 特性 就 是 不 允许 在 其 中 存 
放 重复 的 元 素 。 因 此 ，Set 可 以 被 用 来 过 滤 在 其 他 集合 中 存放 的 元 素 ， 从 而 得 到 一 个 没有 包 
含 重复 元 素 的 集合 。 

下 面 从 两 个 方面 对 集 进行 分 析 。 

1. Set 集合 的 类 图 

在 Scala 集合 类 库 中 ， 集 同样 包含 了 可 变 集 和 不 可 变 集 。 不 可 变 集 的 类 图 如 图 5-7 
所 示 。 


SortedSet 


图 5-7 scala. collection. mutable 包 中 集 类 的 类 
可 变 集 的 类 图 如 图 5-8 所 示 。 


A 
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HashMap 


WeahHashMap 


OpenHashMap 
ObservableMap SynchronizedMap Immutable SetAdaptor 


图 $-8 scala. collection. mutable 包 中 集 类 的 类 


在 Scala 中 ， 基 于 默认 使 用 不 可 变 集 合 的 规范 ， 在 默认 导入 的 Predef 类 中 提供 了 集 的 别 
名 等 定义 ， 具 体 代 码 如 下 所 示 : 


1. type Map[ A, +B] =immutable. Map[ A,B] 
2. type Set[ A | = immutable. Set| A | 

3. val Map = immutable. Map 

4. val Set = immutable. Set 


在 Predef 类 中 提供 了 不 可 变 集 合 类 Set 的 别名 ， 因 此 在 使 用 时 ， 黑 认 情 况 下 使 用 的 是 不 
可 变 的 集合 类 。 

2. 集合 中 元 素 不 重复 的 控制 

ER Set 中 ， 通 过 对 象 的 == 方 法 来 判断 元 素 是 否 相 同 ， 避 免 集 包含 相同 元 素 。 下 面 以 
只 包含 一 个 元 素 的 不 可 变 Set 的 子 类 Setl 为 例 进行 说 明 。Setl 的 代码 如 下 所 示 : 


1. class Setl[ A] private[ collection] (eleml :A) extends AbstractSet[ A | with Set[ A ] with Serializ- 
able | 

2 override def size:Int =1 

3 def contains( elem; A ) :Boolean = 
4 elem == elem] 

5 def + (elem:A):Set[ A] = 

6 if (contains( elem) ) this 

7 

8 


else new Set2(eleml , elem) 


对 应 的 Setl 中 的 + 操作 调用 了 contains 操作 ， 判 断 是 否 已 经 包含 重复 元 素 ， 而 contains 
操作 则 调用 了 == 方 法 。 当 已 经 包含 相同 元 素 时 ， 返 回 集合 本 身 ， 和 否则 ， 构 建 一 个 包含 两 个 
元 素 的 Set2 集合 。 


集 的 相关 操作 ) 


下 面 参 考官 网 给 出 的 接口 分 类 ， 分别 对 Set 提供 的 各 个 接口 进行 说 明 。 需 要 注意 的 是 ， 
对 于 不 可 变 的 集合 类 ， 相 关 的 增加 、 删 除 、 修 改 等 操作 往往 伴随 着 集合 复制 的 开销 ， 当 有 这 


类 操作 的 需求 时 ， 


制 的 操作 ， 而 使 用 对 应 的 变形 操作 ， 可 以 避免 


到 表 5-30 所 示 。 
1. Set 类 的 操 
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应 优先 选择 可 变 集合 的 对 应 集合 类 。 男 外 也 需要 注意 某 些 可 能 导致 集合 复 


作 


Set 类 的 操作 如 表 5-23 到 表 5-26 所 示 。 


Jo ”法 


表 5-23 条 件 的 操作 
说 明 


合 复制 所 带 来 的 开销 。 具 体 说 明 如 表 5-24 


© 


xs contains x 


Wisk x 是 否 是 xs 的 元 素 


xs (x) 


与 xs contains x 相同 


xssubsetOf ys 


测试 xs 是 否 是 ys 的 子 集 


表 5-24 加 法 的 操作 


方 ” 法 说 WW 
xs +x 包含 xs 中 所 有 元 素 及 x 的 集合 
xs + (x,y,z) 包含 xs 中 所 有 元 素 及 附加 元 素 的 集合 
xs ++ys 包含 xs 中 所 有 元 素 及 ys 中 所 有 元 素 的 集合 
#5-25 移 除 的 操作 
Jo X Wo 明 
xs 一 X 包含 xs 中 除 x 以 外 的 所 有 元 素 的 集合 
xs 一 X 包含 xs 中 除去 给 定 元 素 以 外 的 所 有 元 素 的 集合 
xs —ys 包含 在 xs 中 ， 但 不 在 ys 中 的 元 素 的 集合 
xs. empty 元 素 类 型 与 xs 元 素 类 型 相同 的 空 集合 
表 5-26 二 值 操作 的 操作 
方 法 说 明 
xs & ys 集合 xs 和 ys 的 交集 
xs intersect ys 等 同 于 xs & ys 
xs ys 集合 xs 和 ys 的 并 集 
xs Union ys 等 同 于 xs 


xs & ~ ys 


集合 xs 和 ys M224 


ant 


xs diff ys 


等 同 于 xs & ~ ys 


2. 可 变 Set 类 的 操作 


可 变 集 合 提供 


:加 法 类 方法 ， 可 以 用 来 添加 、 删 除 或 更 新 元 素 。 下 面 对 这 


结 ， 如 表 5-27 到 表 5-29 所 示 。 


方 ”法 


表 5-27 加 法 运算 
说 明 


文 些 方法 进行 ， 


EK 


7 


XS 十 =x 


把 元 素 x 添加 到 集合 xs 中 。 该 操作 有 副作用 ， 它 会 返回 左 操作 符 ， 这 里 是 xs 自身 


xs + = (x,y,z) 添加 指定 的 元 素 到 集合 xs 中 ， 并 返回 xs 本 身 。( 同样 有 副作用 ) 
xs++ =ys 添加 集合 ys 中 的 所 有 元 素 到 集合 xs 中 ， 并 返回 xs 本 身 。( 表 达 式 有 副作用 ) 
xs add x 把 元 素 x 添加 到 集合 xs F, WES xs 之 前 没有 包含 x， 该 操作 返回 true, WUE false 


语言 基础 与 开发 实战 


表 S-28 移 除 的 操作 


方 ”法 说 OW 
xs- =x 从 集合 xs 中 删除 元 素 x， 并 返回 xs 本 身 。( 表 达 式 有 副作用 ) 
xs — = (x,y,z) 从 集合 xs 中 删除 指定 的 元 素 ， 并 返回 xs 本 身 。( 表 达 式 有 副作用 ) 
xs- =ys 从 集合 xs 中 删除 所 有 属于 集合 ys 的 元 素 ， 并 返回 xs 本 身 。( 表 达 式 有 副作用 ) 
xs remove x 从 集合 xs 中 删除 元 素 x。 如 之 前 xs 中 包含 x 元 素 ， 则 返回 true, AUNE IE false 
xs retain p 只 保留 集合 xs 中 满足 条 件 p 的 元 素 
xs. clear () 删除 集合 xs 中 的 所 有 元 素 
表 5-29 更 新 的 操作 
方 ”法 说 明 
tei E xs. update(x, b) ， 参 数 b 为 布尔 类 型 ， 如 果 值 为 rue， 就 把 元 素 x 加 入 集合 xs， 
否则 从 集合 xs 中 删除 x 


集 的 操作 示例 ) 


下 面 根据 上 一 节 给 出 的 集合 的 相关 操作 ， 给 出 部 分 操作 的 实例 ， 并 给 出 简单 分 析 。 

【 例 5-22】 不 可 变 Set 类 的 操作 的 代码 示例 。 

不 可 变 集 合 的 部 分 操作 代码 ， 包 含 不 可 变 集 合 的 构建 ， 集 合 的 交集 、 并 集 等 操作 ， 示 例 
代码 如 下 所 示 : 


Ww Ae Se PY 


一 ee ee ce ce ed 
SADARHBN SS 


// 不 可 变 集合 的 一 些 构建 方式 

scala > Set( ). empty 

res21 :scala. collection. immutable. Set[ Nothing | = Set( ) 
scala > Set(1). empty 


res22 ; scala. collection. immutable. Set[ Int | = Set( ) 


// 集 合 的 交 、 并 、 差 等 操作 ,结合 代数 集合 上 的 对 应 操作 去 理解 
scala > val xs = Set( 1,2,3) 

xs:scala. collection. immutable. Set| Int | =Set(1,2 ,3) 

scala > val ys = Set(2 ,3,4) 


. ys:scala. collection. immutable. Set[ Int] =Set(2,3 ,4) 


// 集 合 的 交集 ,对 应 为 两 个 结合 都 有 的 元 素 组 成 的 新 集合 
scala > xs & ys 

res23 : scala. collection. immutable. Set[ Int | = Set(2 ,3) 

scala > xs intersect ys 

res24 : scala. collection. immutable. Set[ Int | = Set(2 ,3) 

// 集 合 的 并 操作 , 即 包含 两 个 集合 全 部 元 素 的 新 集合 


scala > xs union ys 


=A 
Scala 集合 


19. res25 :scala. collection. immutable. Set[ Int] =Set(1 ,2 ,3 ,4) 

20，/ 集 合 的 差 , 即 在 左边 集合 中 ,同时 不 在 右边 集合 中 的 元 素 所 组 成 的 新 集合 
21. scala > xs & ~ ys 

22. res26 :scala. collection. immutable. Set[ Int] = Set(1) 

23. scala > xs diff ys 

24. res27 :scala. collection. immutable. Set[ Int] = Set(1 ) 


[B] 5-23] TÆ Set 类 操作 的 代码 示例 。 
可 变 集合 的 部 分 操作 代码 ， 包 含 可 变 集 合 的 构建 、 集 合 元 素 添加 等 操作 ， 示 例 代码 如 下 所 示 : 


// 可 变 集 合 的 构建 

scala > import scala. collection. mutable 
val xs = mutable. Set(1,2,3) 

val ys = mutable. Set(2,3,4) 


import scala. collection. mutable 


scala > xs:scala. collection. mutable. Set[ Int] =Set(1 ,2 ,3) 
scala > ys:scala. collection. mutable. Set[ Int] =Set(2 ,3 ,4) 


Roe RSENS ae pet ene 


= 
三 


// 可 变 集 的 + = 操作 ,修改 了 原来 的 集 
. scala>xs+ =4 

res39 :xs. type = Set(1,2,3,4) 

scala > xs 


res40 ; scala. collection. mutable. Set[ Int | = Set( 1,2,3,4) 


ie = ee dee fe 
ARON 


/注意 :Set 中 不 存在 重复 的 元 素 
scala >xs + =(3,4,5) 

res41 :xs. type = Set(1,5,2,3,4) 
scala >xs ++ =ys 

res43 :xs. type = Set(1,5,2,3,4) 


N N NY BB Ke ee 一 
De ee kOe COS la ON 


. //add 操作 时 ,如 果 该 元 素 已 经 在 集中 , 则 返回 false ,和 否则 返回 true 
. scala >xs add 5 
res44 ; Boolean = false 


cay 


Bel 映射 (Map) 
SS 映射 的 概述 


在 Scala 集合 类 库 中 ,映射 同样 包含 可 变 映 射 和 不 可 变 映射 。 其 中 ,不 可 变 映 射 的 类 图 


语言 基础 与 开发 实战 


如 图 5-9 所 示 。 


SortedMap 


图 5-9 scala. collection. immutable 包 中 不 可 变 映 射 类 的 类 
可 变 映射 的 类 图 如 图 5-10 所 示 。 


ListMap 


HashMap 


WeahHashMap OpenHashMap 
ObservableMap ImmutableSetAdaptor 


图 5-10 scala. collection. mutable 包 中 可 变 映 射 类 的 类 


SS) 映射 的 相关 操作 


下 面 参考 官网 ， 针 对 操作 接口 所 对 应 的 不 同 功能 特性 进行 分 类 ， 并 分 别 对 Map 提供 的 
各 个 操作 接口 进行 说 明 。 需 要 注意 的 是 ， 对 于 不 可 变 的 集合 类 ， 相 关 的 增加 、 删 除 、 修 改 等 
操作 往往 伴随 着 集合 复制 的 开销 ， 因 此 当 有 这 类 操作 的 需求 时 ， 应 优先 选择 可 变 集合 的 对 应 
集合 类 。 具 体 说 明 如 表 5-31 到 表 5-39 所 示 。 
1. 不 可 变 Map 类 的 操作 
不 可 变 Map 类 的 操作 如 表 5-30 到 表 5-34 所 示 。 
表 5-30 查询 的 操作 


ListMap 


MultiMap 


SynchronizedMap 


方 法 说 明 
nage 返回 一 个 Option， 其 中 包含 和 键 上 关联 的 值 。 若 不 存在 ， 则 返回 None 
ee (完整 写法 是 ms apply k) 返回 和 键 k 关联 的 值 。 若 不 存在 ， 则 抛 出 异常 
msgetOrElse( k,d) 返回 和 键 k 关联 的 值 。 若 k 不 存在 ， 则 返回 默认 值 d 
iis contains k 检查 ms 是 否 包含 与 键 k 相关 联 的 映射 
msisDefinedAt k 同 contains 
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表 5-31 添加 及 更 新 的 操作 


方 法 说 明 
ms + (k=>¥) 返回 一 个 同时 包含 ms 中 所 有 键 / 什 对 及 从 到， AR TED k -> v 的 新 映射 
ms+(k ->v,1->w) | 返回 一 个 同时 包含 ms 中 所 有 键 / 值 对 及 所 有 给 定 的 键 / 值 对 的 新 映射 > 
ms ++ kvs 返回 一 个 同时 包含 ms 中 所 有 键 / 值 对 及 kvs 中 的 所 有 键 / 值 对 的 新 映射 


ms updated(k,v) 同 ms+(k->v) 


表 5-32 移 除 的 操作 
方法 说 明 


ms -k 返回 一 个 包含 ms 中 除 键 k 以 外 的 所 有 映射 关系 的 映射 
ms— (k,1,m) 返回 一 个 滤 除 了 ms 中 与 所 有 给 定 的 键 相 关联 的 映射 关系 的 新 映射 
ms 一 ks 返回 一 个 滤 除 了 ms 中 与 ks 中 给 出 的 键 相关 联 的 映射 关系 的 新 映射 


55-33 FE (Subcollection) 的 操作 
方 法 说 明 


ATA a 用 于 包含 ms 中 所 有 键 的 iterable 对 象 (译注 : 请 注意 iterable 对 象 与 iterator 的 
ms. keySet 返回 一 个 包含 ms 中 所 有 键 的 集合 
ms. keyslterator 返回 一 个 用 于 遍历 ms 中 所 有 键 的 迭代 器 
ms. values 返回 一 个 包含 ms 中 所 有 值 的 iterable 对 象 
ms. valueslterator 返回 一 个 用 于 遍历 ms 中 所 有 值 的 迭代 器 
表 5-34 转换 的 操作 
方法 说 明 
msfilterKeys p 得 到 一 个 映射 视图 (Map View) ， 包 含 ms 映射 中 元 素 的 键 符合 指定 的 p 条 件 的 所 有 元 素 
msmap Values f 得 到 一 个 映射 视图 (Map View) ， 同 时 将 函数 f 作 用 于 ms 映射 中 每 个 元 素 的 值 上 


filterKeys 与 mapValues 操作 ， 分 别 返 回 FilteredKeys 与 MappedValues 类 型 ,在 实际 操作 
时 ， 只 是 将 对 应 的 p 与 了 操作 封装 到 对 应 的 类 中 ， 在 需要 时 才 执 行 p 与 了 操作 。 类 似 的 类 型 
如 WithFilter。 

2. 可 变 Map 类 的 操作 

可 变 Map 类 的 操作 如 表 5-35 到 5-38 所 示 。 

表 5-35 添加 及 更 新 的 操作 
方 ” 法 说 明 

完整 形式 为 ms. update(x,v) 。 向 映射 ms 中 新 增 一 个 以 k 为 键 、 以 v 为 值 的 键 / 值 对 ，ms 


CY 先前 包含 的 以 上 为 值 的 映射 关系 将 被 覆盖 
ms += (k —>v) 名 映射 ms 增加 一 个 以 上 为 键 、 以 v 为 值 的 键 / 值 对 ， 并 返回 ms 自身 
ms+=(k->v,1->w) 可 映射 ms 中 增加 给 定 的 多 个 键 / 值 对 ， 并 返回 ms 自身 
ms ++= kvs HEAT ms 增加 kvs 中 的 所 有 键 / 值 对 ， 并 返回 ms 自身 
FY PRES ms 增加 一 个 以 上 为 键 、 以 v 为 值 的 键 / 值 对 ， 并 返回 一 个 Option ， 其 中 可 能 包含 
ER 此 前 与 上 相关 联 的 值 


msgetOrElseUpdate(k,d) 如 果 ms 中 存在 刍 k， 则 返回 键 k 的 值 。 和 否则 向 ms 中 新 增 键 / 值 对 k -> v 并 返回 d 


语言 基础 与 开发 实战 


表 S-36 移 除 的 操作 
Jo 法 说 明 
ms —= 从 映射 ms 中 删除 以 k 为 键 的 映射 关系 ， 并 返回 ms 自身 
ms -= (k,1,m) 从 映射 ms 中 删除 与 给 定 的 各 个 键 相关 联 的 映射 关系 ， 并 返回 ms 自身 
ms —=ks 从 映射 ms 中 删除 与 ks 给 定 的 各 个 键 相关 联 的 映射 关系 ， 并 返回 ms 自身 


ms remove k 


从 ms PEBRA k 为 键 的 映射 关系 ， 并 返 


回 一 个 Option， 其 可 能 


包含 之 前 与 k 相关 联 的 值 


ms retain p 


仅 保留 ms 中 键 满足 条 件 谓词 p 的 映射 关 


系 


ms. clear( ) 


方 ” 法 


删除 ms 中 的 所 有 映射 关系 


表 5-37 转换 的 操作 


说 


明 


ms transform f 


方 ” 法 


以 函数 f 转 换 ms 中 所 有 键 / 值 对 ( 说明: 参考 APT 文档 中 国 数 f 的 签名 ， 对 应 输入 为 键 / 


值 对 ， 输 出 为 该 键 的 新 值 ) 


表 5-38 克隆 的 操作 


说 


明 


ms. clone 


返回 一 个 新 的 可 变 映射 (Map) ， 其 中 包含 与 ms 相同 的 映射 关系 


a 映射 的 操作 示例 


下 面 参考 官网 给 出 的 接口 分 类 ， 分 别 对 Map 提供 的 各 个 接口 进行 说 明 。 
1. 不 可 变 Map 类 的 操作 
对 应 的 是 不 可 变 的 Map 类 ， 因 此 以 下 操作 不 会 修改 原来 的 Map 实例 ， 而 是 返回 修改 后 


的 新 的 Map 实例 。 


【 例 5-24】 查 询 相 操作 的 代码 示例 。 
本 示例 为 不 可 变 Map 的 查询 相关 操作 的 代码 ， 包 含 get、getOrElse 等 方法 的 代码 ， 示 例 


代码 如 下 所 示 : 


So GA aN EN RA gS E T 


/注意 查询 结果 的 类 型 
scala > val ms = Map(1 -> "one" ,2 -> "two" ,3 ->"three" ) 
ms:scala. collection. immutable. Map| Int, String] = Map(1 
scala >ms get 3 

res45 ; Option[ String | = Some( three ) 
scala > ms get 4 

res46 ; Option[ String | = None 


10. scala > ms(3) 
11. res47 : String = three 


> one ,2 —>two,3 —> three) 


//(4) 操 作 与 get 不 同 ,在 key 值 不 存在 时 ,会 抛 出 异常 NoSuchElementException 


12, 
13. 
14. 
15. 
16. 
17. 
18. 
19. 
20. 
“Al. 
22: 
23. 
24. 


第 5 章 


scala > ms(4) 


java. util. NoSuchElementException: key not found :4 


// 获 取 指定 key 值 的 value, key 值 不 存在 时 ,返回 给 定 的 默认 值 S 
scala > msgetOrElse(3 ," unknown" ) 

res49 ; String = three 

scala > msgetOrElse(4 ," four" ) 

res50 ; String = four 


scala > ms contains 3 
res51 ; Boolean = true 
scala > msisDefinedAt 4 


res52 ; Boolean = false 


【 例 5-25] 添加 及 更 新 相关 的 代码 示例 。 
本 示例 为 不 可 变 Map 的 元 素 添 加 、 更 新 相关 操作 的 代码 ， 包 含 添加 元 素 、 添 加 集合 等 
方法 的 代码 ， 示 例 代码 如 下 所 示 : 


rN 


scala > val ms = Map( 1 -> "one" ,2 ->"two" ,3 —> " three" ) 


ms:scala. collection. immutable. Map[ Int, String] =Map(1 ->one,2 ->two,3 —> three) 
scala > valkvs = Map(1 -> " one" ,4 -> "four" ,5 —>" five" ) 


kvs: scala. collection. immutable. Map| Int, String] = Map(1 ->one,4 —> four,5 —> five) 


scala > ms + (4 —>" four" ) 


res57 : scala. collection. immutable. Map| Int, String | = Map( 1 -> one,2 ->two,3 —> three,4 -> 
four) 

scala > ms + (4 —> "four" ,5 —> " five" ) 

res58 : scala. collection. immutable. Map| Int, String] = Map(5 —> five, 1 ->one,2 ->two,3 -> 
three ,4 —> four) 

scala >ms ++ kvs 

res59 ; scala. collection. immutable. Map| Int, String | = Map (5 -> five, 1 -> one,2 —>two,3 -> 
three ,4 —> four) 


//updated 内 部 也 是 调用 + 操作 


scala > ms updated(3,"new — three" ) 


res61 ; scala. collection. immutable. Map| Int, String | = Map( 1 -> one ,2 —>two,3 —> new — three) 


scala > ms updated(4," four" ) 


res62 ; scala. collection. immutable. Map| Int, String | = Map(1 -> one,2 —>two,3 —> three,4 -> 


four) 


[5] S-26】 子 集合 (Subcollection) 相关 的 代码 示例 。 
本 示例 为 不 可 变 Map 的 子 集合 相关 操作 的 代码 ， 包 含 获取 Key 集合 、Value 集合 等 方法 
的 代码 ， 示 例 代码 如 下 所 示 : 


Ni Cas Nae ee Ne se ea 


N NY N KN NH HH HE HF = ee 一 i 一 
eS Se Ree oS ey a eS 


25: 
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scala > val ms = Map( 1 -> "one" ,2 ->"two" ,3 -> " three" ) 


ms:scala. collection. immutable. Map[ Int, String | =Map(1 ->one,2 ->two,3 —> three) 


// 获 取 集 合 的 全 部 Key 值 集合 的 几 种 方式 
scala > ms. keys 

res63 : Iterable[ Int] =Set(1,2 ,3) 

scala > ms. keySet 


res64 : scala. collection. immutable. Set[ Int | = Set(1,2 ,3) 


scala > ms. keyslterator 

res66 : Iterator{ Int] = non — empty iterator 
scala > ms. keyslterator. foreach( println) 

1 

2 

3 


// 获 取 集 合 的 全 部 Value 值 集合 的 几 种 方式 
scala > ms. values 

res68 : lterable| String | = MapLike( one, two, three ) 
scala > ms. valueslterator 

res69 : Iterator[ String | = non — empty iterator 

scala > ms. valueslterator. foreach ( println ) 

one 

two 


three 


【 例 5-27) 转换 相关 的 代码 示例 。 
本 示例 为 不 可 变 Map 的 转换 相关 操作 的 代码 ， 包 含 对 Key 值 的 过 滤 、 对 Value 值 的 映射 
等 方法 的 代码 ， 示 例 代 码 如 下 所 示 : 


scala > val ms = Map( 1 -> "one" ,2 ->"two" ,3 —> " three" ) 


ms:scala. collection. immutable. Map| Int, String] =Map(1 ->one,2 ->two,3 —> three) 


//filter 是 对 Map 的 键 / 值 对 元 素 进行 过 滤 
//filterKeys 是 对 元 素 的 键 进行 过 滤 
scala > msfilterKeys | _>1} 


res71 :scala. collection. immutable. Map| Int, String | = Map(2 ->two,3 ->three) 


//map 是 对 Map 的 键 / 值 对 元 素 进行 映射 
//mapValues 是 对 元 素 的 值 进行 映射 
scala > msmapValues |_. toUpperCase} 


res72 :scala. collection. immutable. Map| Int, String | = Map( 1 -> ONE,2 -> TWO,3 -> THREE) 
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2. 可 变 Map 类 的 操作 

对 应 可 变 Map 类 的 操作 ， 在 添加 、 删 除 、 修 改 等 操作 时 会 修改 原来 的 Map 类 。 以 下 示 
例 将 对 可 变 Map 类 的 操作 进行 介绍 。 

【 例 5-28】 与 添加 及 更 新 相关 的 代码 示例 。 

本 示例 为 可 变 Map 的 元 素 添加 及 更 新 相关 操作 的 代码 ， 包 含 添 加 元 素 、 集 合 、 对 指定 
Key 值 元 素 的 修改 等 方法 的 代码 ， 示 例 代 码 如 下 所 示 : 


1. scala > import scala. collection. mutable 

2. import scala. collection. mutable 

3. 

4. // 注 意 ,这 里 使 用 的 是 mutable. Map, , 即 可 变 的 Map 类 

5. scala > val ms = mutable. Map(1 -> "one" ,2—>"two",3—>"three") 

6. ms:scala. collection. mutable. Map| Int, String] = Map(2 -> two,1 ->one,3 —> three) 

Ta 

8. /修改 原 有 的 key 和 新 增 的 key 所 对 应 的 键 / 值 对 

9. scala>ms(1) ="1" 

10. scala > ms(4) =" four" 

11. 

12，// 对 应 可 变 Map :重新 查看 原 有 的 Map 实例 ,可 以 看 到 已 经 被 修改 

13. scala > ms 

14. res75 :scala. collection. mutable. Map| Int, String ] = Map(2 -> two,4 —>four,1 —>1,3 —> three) 

15. 

16. // 增 加 新 的 键 / 值 对 

17. scala >ms+=(4—>"four") 

18. res76:ms. type = Map(2 ->two,4 ->four,1 ->1,3—>three) 

19. 

20.// 如 果 新 增 的 key 已 经 存在 , 则 覆盖 ,其 他 操作 类 似 

21. scala>ms += (1 ->"1" ,4->"four" ) 

22. res8l :ms. type = Map(2 —>two,5 —>five,4 —>four,1 ->1,3 —> three) 

23. 

24. scala >ms 

25. res89 :scala. collection. mutable. Map[ Int, String] = Map (2 -> two,4 -> four, 1 -> one,3 -> 
three ) 

26. scala >ms ++=Map(1 ->"1" ,4 -> "four" ,5 —>" five" ) 

27. res90:ms. type = Map(2 —>two,5 —>five,4 —>four,1 ->1,3 —> three) 

28. 

29. //put 操作 ,对 应 返回 结果 的 类 型 及 其 值 ,与 新 增 的 key 在 原 Map 中 的 是 否 有 值 有 关 。 

30. scala > ms put(5," five" ) 

31. res93 : Option| String | = Some( five) 

32. scala > ms put(5,"5") 

33. res94;Option| String | = Some ( five) 

34. 


© 


语言 基础 与 开发 实战 


35. /新 增 key =6 的 键 / 值 对 在 原 集合 中 不 存在 ,此 时 返回 None 
36. scala > ms put(6,"six" ) 
37. res95 :Option| String | = None 


39. //getOrElseUpdate 在 getOrElse 基础 上 添加 了 update 操作 

40. // 即 如 果 原 key 不 存在 , 则 在 获取 指定 默认 值 的 基础 上 ,还 为 原 Map 新 增 了 该 键 / 值 对 
41. // 该 方法 通常 在 Map 使 用 的 默认 值 的 计算 开销 比较 大 时 使 用 

42. /可 以 避免 不 必要 的 重复 计算 

43. scala > msgetOrElseUpdate(7 ," seven" ) 


44. res96: String = seven 


46. // 原 集合 中 也 update 了 key =7 的 键 / 值 对 
47. scala>ms(7) 
48. res97 :String = seven 


【 例 5-29】 和 转换 相关 的 代码 示例 。 
本 示例 为 可 变 Map 的 转换 相关 操作 的 代码 ， 定义 转换 的 函数 ， 通 过 transform 方法 进行 
转换 的 示例 代码 如 下 所 示 : 


scala > val ms = mutable. Map(1 -> "one" ,2 -> "tow" ,3 —>" three" 
Pp 学 


ms:scala. collection. mutable. Map[ Int, String] = Map(2 ->tow,1 ->one,3 ->three) 


1 

2 

3 

4. // 转 换 函 数 输入 为 键 / 值 对 ,输出 为 该 键 / 值 对 修改 后 的 value 
5. /对比 前 面 mapValues 所 对 应 的 函数 参数 ,以 及 其 返回 结果 
6 

7 

8 

9 


scala > def f(k:Int,v;String) =v *2 
f:(k;Int, v; String) String 
scala > ms transform f 


res104 :ms. type = Map(2 ->towtow,1 —> oneone ,3 —> threethree ) 


11. /对 应 的 简化 ,使 用 函数 字面 量 : 原 Map 已 经 被 修改 ,需要 重新 定义 


12. scala > val ms = mutable. Map( 1 -> "one" ,2 -> "tow" ,3 —>" three" ) 


13. ms:scala. collection. mutable. Map| Int,String] = Map(2 -> tow,1 ->one,3 ->three) 
14. scala > ms transform |(k,v) =>v *2 | 


15. res105 :ms. type = Map(2 -> towtow,1 -> oneone,3 —> threethree ) 


1A (Iterator) 


迭代 器 的 概述 


迭代 器 (Iterator) 有 时 又 称 游标 ( Cursor)， 是 程序 设计 的 软件 设计 模式 ， 可 在 集合 
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(container， 例 如 链表 或 阵列 ) 上 遍 访 的 接口 ， 设 计 人 员 无 须 关 心 集合 的 内 容 。 

迭代 需 不 是 一 个 集合 ， 而 是 用 于 逐个 访问 集合 内 元 素 的 方法 。 迭 代 器 提供 了 两 个 基本 操 
作 : next 和 hasNext。 通 过 调用 hasNext 方法 可 以 判断 集合 中 是 否 还 有 下 一 个 元 素 ， 返 回 true 
时 ， 可 以 通过 next 方法 来 获取 迭代 需 的 下 一 个 元 素 ， 如 果 返 回 false， 即 集合 中 已 经 没有 可 
迭代 的 元 素 时 ， 如 果 继 续 调 用 next 方法 ， 则 会 执 出 NoSuchElementException 异常 。 
Iterator 提供 了 类 似 Traversable, Iterable 和 Seq 集合 类 中 大 部 分 方法 的 方法 。 在 这 些 操 
作 中 ， 需 要 注意 的 是 foreach 方法 在 Traversable 和 Iterable 集合 人 
在 Iterator 上 调用 foreach 方法 时 ， 方 法 在 遍历 完 所 有 元 素 后 会 将 迭代 带 保 留 在 最 后 一 
素 的 位 置 ， 此 时 再 调用 hasNext 方法 将 返回 false。 对 应 的 ， 如 果 继 续 调用 next WI, 
抛 出 NoSuchElementException 异常 了 。 与 此 不 同 的 是 ， 在 集合 中 调用 foreach WK, Att 
中 的 元 素数 量 不 会 变化 ， 此 时 仍然 可 以 继续 访问 该 集合 ， 而 不 会 殷 出 NoSuchElementEx- 
ception 异常 ， 除 非 传 入 foreach ÉY PK 数 添加 或 删除 了 集合 的 元 素 ， 但 通常 是 个 建议 这 么 做 
的 ， 也 就 是 说 ， 在 遍历 一 个 集合 的 同时 ， 是 不 应 该 去 增删 集合 元 素 的 ， 这 种 行为 的 结 


是 未 定义 。 


迭代 器 的 相关 操作 


下 面 参 考官 网 给 出 的 接口 分 类 ， 
表 5-39 到 表 5-56 所 示 。 


Io 


) 


行 说 明 。 有 具体 说 明 如 


分 别 对 Iterator 提供 的 各 个 接口 进 


表 5-39 抽象 方法 


方 ”法 说 明 
it. next( ) 返回 迭代 器 寺中 的 下 一 个 元 素 ， 并 将 位 置 移动 至 该 元 素 之 后 
it. hasNext 如 果 还 有 可 返回 的 元 素 ， 返 回 tue， 否则 返回 false 
表 5-40 变种 的 操作 
WF ”法 说 明 
让 buffered 返回 一 个 包含 让 中 全 部 元 素 的 缓存 迭代 器 


对 站 的 元 素 按 指定 个 数 大 小 分 成 多 个 序列 块 ， 然 后 返回 一 个 以 这 些 序列 块 为 元 素 的 迭代 器 


对 it 的 元 素 按 指定 大 小 的 滑动 窗口 分 成 多 个 序列 块 ， 然 后 返回 一 个 以 这 些 序列 块 为 元 素 的 
a ae 


it grouped size 


xs sliding size 


5-41 复制 的 操作 
方法 说 明 
回 两 个 迭代 器 组 成 的 pair 对 ， 其 中 每 个 迭代 器 都 能 返回 迭代 器 让 的 所 有 元 素 


i 


it. duplicate 


# 5-42 ”加 法 运算 
方 ” 法 说 明 
it++jt 返回 的 迭代 器 会 包含 迭代 器 站 的 所 有 元 素 ， 并 且 后 面 会 附加 迭代 器 it 的 所 有 元 素 
itpadTo( len ,x) 首先 返回 迭代 器 站 的 所 有 元 素 ， 然 后 追加 x 直到 整个 集合 的 大 小 为 len 


© 
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表 5-43 ”映射 运算 
说 明 


it map f 


返回 将 传 入 的 函数 了 作用 于 迭代 器 站 中 的 每 个 元 素 所 得 到 的 迭代 器 


itflatMap f 


将 传人 的 函数 f 作 用 于 和 迭代 器 让 中 的 每 个 元 素 ， 对 应 会 生成 一 个 迭代 器 元 素 值 ， 然 后 
些 元 素 迭 代 器 扁平 化 后 ， 作 为 新 的 迁 代 器 的 元 素 ， 返 回 新 的 迭代 器 


后 将 这 


it collect f 


返回 将 传 入 的 函数 f 作 用 于 迭代 器 让 中 的 每 个 元 素 ， 得 到 包含 新 元 素 的 迭代 器 并 返回 


35-44 转换 (Conversions) 的 操作 


方法 说 明 
it. toArray Bie ak 让 转换 为 一 个 包含 其 中 所 有 元 素 的 数组 
让 toList ERRAR 让 转换 为 一 个 包含 其 中 所 有 元 素 的 列表 
it. tolterable Bik at it FR Pa IP A CRY Iterable 集合 类 
it. toSeq LERA 让 转换 为 一 个 包含 其 中 所 有 元 素 的 Seq 集合 类 
it. tolndexedSeq Le (CAE 让 转换 为 一 个 包含 其 中 所 有 元 素 的 mdexedSed 集合 类 
让 toStream Hie ak 让 转换 为 一 个 包含 其 中 所 有 元 素 的 Stream 集合 类 
让 toSet BRRR 让 转换 为 一 个 包含 其 中 所 有 元 素 的 Set 集合 类 
it. toMap Beat 让 转换 为 一 个 包含 其 中 所 有 元 素 的 Map 集合 类 
表 5-45 复制 的 操作 
方 ”法 说 明 


itcopyToBuffer buf 


将 迭代 器 it 指向 的 所 有 元 素 复 制 至 缓冲 区 buf 


itcopyToArray( arr,s,n) 


方 ” 法 


把 迭代 器 站 的 元 素 复制 到 数组 arr 的 起 始 索 引 为 处 ，] 
n 是 可 选项 


#5-46 集合 大 小 信息 的 操作 


说 


明 


it. isEmpty 


测试 迭代 器 让 是 否 为 空 


(与 hasNext 相反 ) 


it. nonEmpty 


测试 迭代 器 让 是否 


包含 元 素 〈 相 当 了 


F hasNext) 


it. size 计算 迭代 器 让 元 素 的 个 数 。 注 意 : 该 操作 会 将 寺 置 于 终点 
it. length 与 it. size 相同 


it. hasDefiniteSize 


如 果 和 迭代 器 站 大 小 是 有 限 的 ， 


则 为 bue。( 缺 省 等 同 于 


isEmpty) 


R 5-47 检索 元 素 的 操作 


方 ” 法 MoO 
atni 返回 第 一 个 满足 p 的 元 素 或 None。 注 意 : WEREWERE, RARE TP 
R 之 后 ;如 果 没 有 找到 ， 会 被 置 于 终点 


itindexOf x 


返回 迭代 器 站 中 值 等 于 


间 定 值 的 第 一 个 元 素 的 索引 位 置 。 注 意 : 迭代 器 会 越过 这 个 元 素 


itindexWhere p 


返回 迭代 器 让 中 值 满足 条 件 p 的 第 一 个 元 素 的 索引 位 置 。 注 意 : i 


be 
= 
Bd 
> | y 
© 
fet 
i 
x 
W 
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表 5-48 获取 子 集合 的 操作 (Subcollection) 
方 法 说 明 


it tak BERRAR it AYA n PoC (如 果 集 合 无 序 ， 则 取 任 意 个 元 素 ) 的 迭代 器 。 注 意 : 
cyte 让 的 位 置 会 步 进 至 第 了 个 元 素 之 后 ， 如 果 站 指向 的 元 素数 不 足 半 个 ， 则 迭代 器 将 指向 终点 > 
it drop n REMERA it A n +1 个 元 素 开 始 的 新 迭代 器 。 注 意 ， 迭代 器 站 会 步 进 到 相同 位 置 
lie WERE, BEER RA it PA from 到 to ( 左 闭 右 开 ) 的 索引 范围 内 的 元 素 所 对 应 的 
it suce( m,n 迭代 器 
ittakeWhile p 返回 包含 迭代 器 站 中 满足 谓词 p 的 最 多 的 元 素 所 组 成 的 新 的 迭代 器 
itdropWhile p 返回 包含 迭代 器 让 中 从 第 一 个 不 满足 条 件 的 元 素 开 始 的 所 有 元 素 对 应 的 新 迭代 器 


回 包含 迭代 器 it 中 满足 条 件 p 的 元 素 所 组 成 的 新 迭代 器 
it filter p 一 样 。 将 迭代 器 用 于 for 表达 式 时 需要 
回 包含 迭代 器 it 中 不 满足 条 件 p 的 元 素 所 组 成 的 新 迭代 器 


5 


it filter p 


> 


itwithFilter p 


5 


itfilterNot p 


55-49 拆 分 (Subdivision) 的 操作 
KO 说 明 


将 迭代 器 it 拆 分 为 两 个 迭代 器 ， 一 个 包含 迭代 器 让 中 满足 条 件 p 的 元 素 ， 男 一 个 包含 迭代 
器 it 中 不 满足 条 件 p 的 元 素 


it partition p 


K 5-50 查询 元 素 条 件 (Element Conditions) 的 操作 
方 ”法 说 AW 


it forall p 返回 一 个 布尔 值 ， 指 明 it 所 指 元 素 是 否 都 满足 p 
it exists p 返回 一 个 布尔 值 ， 指 明 it 所 指 元 素 中 是 否 存 在 满足 p 的 元 素 
it count p 返回 让 所 指 元 素 中 满足 条 件 谓词 p 的 元 素 总 数 
# 5-51 if (Fold) 的 操作 
wo ”法 说 明 
(2/ zit) (op) VA z 为 初始 值 ， 依 次 连续 地 从 左 到 右 对 迭代 吉 it 中 的 元 素 应 用 二 元 操作 op 
(it :\ z) (op) 以 z 为 初始 值 ， 依 次 连续 地 从 右 到 左 对 迭代 器 it 中 的 元 素 应 用 二 元 操作 op 
it. foldLeft(z) (op) 与 (z /:it) (op) 相 同 
it. foldRight(z) (op) 与 (it :\ z) (op) 相 同 
itreduceLeft op RU GE BEY Ac BA TE as ARA 让 中 的 元 素 应 用 二 元 操作 op 
itreduceRight op RU GE BE WAT BI Ae TA as ARA 让 中 的 元 素 应 用 二 元 操作 op 


R 5-52 ”特殊 折 县 (Specific Fold) 的 操作 
F 法 说 明 

回 迭 代 器 站 中 所 有 数值 型 元 素 的 和 

回 迭 代 器 站 中 所 有 数值 型 元 素 的 积 


5 


it. sum 


5 


it. product 


it. min 返回 迭代 器 寺中 所 有 元 素 中 最 小 的 元 素 
it. max 返回 迭代 器 寺中 所 有 元 素 中 最 大 的 元 素 
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表 5-53 拉链 (Zippers) 的 操作 


方 ”法 说 明 

it zip jt 返回 一 个 新 迭代 器 ， 其 元素 由 迭代 器 让 和 并 中 的 元 素 ， 一 一 配对 为 二 元 组 (Pair) 而 形成 
ile ees 返回 一 个 新 迭代 器 ， 其 元 素 由 迭代 器 让 和 站 中 的 元 素 ， 一 一 配对 为 二 元 组 (Pair) 而 形 
i aa cea 成 。 其 中 ， 长 度 较 短 的 迭代 器 会 被 追加 元 素 x 或 y， 以 匹配 较 长 的 迭代 器 


返回 一 个 迭代 器 ， 其 元 素 由 迭代 器 让 中 的 元 素 及 其 元 素 下 标 共 同 构成 二 元 组 (Pair) 而 
it. zipWithIndex 成 
5-54 更 新 的 操作 
方 法 说 明 
it patch(i,jt,r) 将 迭代 器 让 中 第 i 个 元 素 开始 的 个 元 素 ， 蔡 换 为 迭代 器 中 的 元 素 


#5-55 ” 比 对 的 操作 
方 ”法 说 明 
itsameElements jt 判断 迭代 器 让 和 坟 是 否 依 次 返回 相同 元 素 注意 ; it 和 jt 中 至 少 有 一 个 会 步 进 到 终点 


表 5-56 FIFE (String) 的 操作 
方 ”法 说 明 


把 一 个 字符 串 添加 到 StringBuilder 对 象 b 中 ， 该 字符 串 显 示 和 迭代 器 it 中 的 所 有 元 素 ， 并 以 
start 开头 、 以 end 结尾， 同时 元 素 之 间 以 sep 作为 分 隔 符 。 其 中 start, end 和 sep 为 可 选 参数 


itaddString(b, start ,sep , end) 


把 迭代 器 it FERN EB, TE Ne hae it 中 的 所 有 元 素 ， 并 以 start 开头 、 以 
end 结尾 ， 同 时 元 素 之 间 以 sep 作为 分 隔 符 。 其 中 start, end 和 sep 为 可 选 参数 


迭代 器 的 操作 示例 ) 


下 面 根 据 上 一 节 给 出 的 Iterator 的 相关 操作 ， 对 部 分 操作 类 型 的 实例 进行 简单 的 代码 
分 析 。 

【 例 5-30】 抽 象 方法 的 代码 示例 。 

迭代 器 抽象 方法 的 代码 包含 next, hasNext 方法 的 代码 ， 演 示 了 操作 中 迭代 器 索引 位 置 
的 移动 细节 ， 示 例 代码 如 下 所 示 : 


itmkString( start , sep ,end ) 


1. /下 面 的 示例 演示 迭代 需 的 索引 移动 

2. /注意 :此 时 1 to 5 对 应 的 是 一 个 Range 实例 ,因此 ,it 中 只 有 一 个 元 素 

3. scala >val it =Iterator(1 to 5) 

4. it; Iterator[ scala. collection. immutable. Range. Inclusive | = non — empty iterator 
5. // 由 于 当前 有 一 个 元 素 , 因 此 next 成 功 

6. scala >it. next() 

7. resl :scala. collection. immutable. Range. Inclusive = Range( 1 ,2,3,4,5) 

8. /由 于 已 经 next 一 次 ,相当 于 当前 的 初始 索引 位 置 已 经 

9. // 移 到 第 二 个 元 素 ( Range 实例 ) 上 

10.// 因 此 再 次 next 会 抛 出 异常 NoSuchElementException 
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11. scala > it. next( ) 


12. java. util. NoSuchElementException :next on emptyiterator 
15. // 参 数 1 t05 :_* ,其 中 
18. /人 ”后 面 * 是 通配符 ,表示 任意 元 素 


| 区 
14. /注意 此 时 Iterator 的 元 素 类 型 Int 与 前 面 的 区 别 © 
16. /1.”:”: 表 示 声 明 

17. //2. “_*” s 是 占 位 符 , 表 示 前 面 对 象 (Range 实例 ) 的 某 个 元 素 

19. // 此 合 起 来 就 表示 将 前 面 的 对 象 中 的 全 部 元 素 作 为 Iterator 的 输入 参数 

20. scala > val it =Iterator(1 to5 :_*) 


21. it:Iterator[ Int] = non — empty iterator 

22. /此 时 有 5 个 元 素 ,因此 next 不 会 在 第 三 次 调用 时 抛 出 异常 
23. scala > it. next 

24. res8:Int=1 

25. scala > it. next 

26. res9:Int =2 

27. scala > it. next 

28. resl0:Int =3 

29. 

30. //ÆF hasNext, 以 及 在 hasNext 返回 不 同 值 时 ,next 的 操作 是 否 抛 出 异常 
31. scala > it. hasNext 

32. resl11 :Boolean = true 

33. scala > it. next 

34. resl2:Int =4 

35. scala > it. next 

36. resl3:Int =5 

37. scala > it. hasNext 

38. resl4: Boolean = false 

39. scala > it. next 


40. java. util. NoSuchElementException ; next on emptyiterator 


【 例 5-31) 变种 操作 的 代码 示例 。 
本 示例 为 和 迭 代 需 变种 操作 的 代码 ， 包 含 buffered grouped 等 方法 的 代码 ， 示 例 代 码 如 下 
所 示 : 


scala > val it =Iterator(1 to 5 :_*) 


it: Iterator[ Int ] = non — empty iterator 


/7 注意 返回 值 的 类 型 
scala > val nit = it. buffered 


nit: scala. collection. BufferedIterator[ Int | = non — empty iterator 


le ON a er as se 


1 
2 
Hoe) 
4 
5 


语言 基础 与 开发 实战 


scala > nit foreachprintln 


scala > nit . Size 
res25 :Int =0 


. //foreach Ja EEA BEI it 的 最 后 一 个 元 素 上 ,因此 继续 访问 会 抛 出 异常 


scala > nit. head 


java. util. NoSuchElementException ; next on emptyiterator 


scala > val it =Iterator(1 to 5 : * ) 


it: Iterator[ Int ] = non — empty iterator 


. // 注 意 元 素 的 分 组 , 按 指定 大 小 ,每 两 个 元 素 作为 一 组 


// 然 后 每 一 组 都 是 新 的 返回 迭代 带 的 元 素 


scala > it grouped 2 


res27 :让 GroupedIterator| Int | = non — empty iterator 


. //res27 为 REPL( Read Evaluation Print Loop) 生成 的 表达 式 名 字 


scala > res27 foreachprintln 
List(1,2) 

List(3 ,4) 

List(5 ) 


. // 滑 动 窗口 操作 :依次 遍历 每 个 元 素 ,以 滑动 窗口 大 小 取出 连续 的 元 素 作为 一 组 


// 当 遍历 到 某 个 元 素 ,而 后 续 元 素 个 数 不 足 以 满足 窗口 大 小 时 ,退出 


scala > val it =Iterator(1 to 5 ;_ * ) 


it: Iterator[ Int ] = non — empty iterator 
scala > it sliding 2 foreachprintln 
List(1 ,2) 

List(2 ,3) 

List(3 ,4) 

List(4 ,5) 


. SAE IS, FA ETE Be SC EA it, BE A Ay ae ti M E 8 ee 


scala > val it =Iterator(1 to 5 ;_ * ) 
it: Iterator[ Int] = non — empty iterator 
scala > it sliding 3 foreachprintln 
List(1 ,2 ,3) 

List(2 ,3 ,4) 

List(3 ,4,5) 
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【 例 5-32】 复 制 操作 的 代码 示例 。 
本 示例 为 迭代 器 复制 操作 的 代码 ， 在 复制 过 程 中 演示 了 模式 匹配 的 使 用 ， 示 例 代 码 如 下 


所 示 : 


Ad pee AE Ae 


=. = =e =e = = 
OA he oR SS 


18. 


// 这 里 变量 定义 使 用 了 模式 匹配 © 
scala > val( itl ,it2 ) = it. duplicate 
itl ; Iterator| Int | = non — empty iterator 


it2 :Iterator[ Int] = non — empty iterator 


// EITEN RA CARA CR 
// 注 意 : 分 号 的 作用 


scala > itl foreachprintln;it2 foreach println 


AF WON HK HA FW NY 一 


【 例 5-33] 映射 操作 的 代码 示例 。 
本 示例 为 迁 代 器 映射 操作 的 代码 ， 包 含 collect、flatMap 等 方法 的 代码 ， 示 例 代 码 如 下 


所 示 : 


Sogo Ses age NS 


一 一 
Cr ae ee Se eS 


scala > val it =Iterator(1 to 5 ;_ * ) 


it: Iterator[ Int] = non — empty iterator 


// 定 义 collect Hr rig HY i PVA, 只 取 偶 数 
val even; PartialFunction[ Int, Int] = { case x if x % 2==0=>x| 


scala > even; PartialFunction[ Int, Int] = <functionl > 


scala > it collect even 


res39 ; Iterator[ String | = non — empty iterator 


. // 简 化 偏 函 数 的 定义 


scala > val it =Iterator(1 to 5 : * ) 


it: Iterator[ Int ] = non — empty iterator 


// 所 有 这 种 形式 的 调用 ,对 应 链 式 调用 ,具体 可 以 参考 本 书 高 级 类 型 音节 的 相关 内 容 


scala >it collect | case x if x % 2==0=>x | foreachprintln 


语言 基础 与 开发 实战 


//flatMap 操作 返回 的 也 是 一 个 迭代 器 


scala > val it =Iterator(1 to 5 ;_* ) 


it; Iterator[ Int | = non — empty iterator 


/这 里 为 了 记录 每 个 元 素 转换 成 迭代 器 值 的 元 素 
/在 转换 函数 { 中 添加 了 打印 函数 


// 对 
// fi 


应 需要 注意 的 是 ,在 flatMap EER — MERA OP AAT EL fi HH ar RA E 


EI AYE AN ie ld TCR IN, Ae EAT 


// 对 应 刚 转换 时 就 输出 Elem :i 信息 ,以 及 打印 信息 的 错位 问题 
// 和 foreach 代码 的 遍历 方式 有 关 , 不 过 一 般 也 不 建议 在 函数 f 中 添加 print 语句 
// 也 就 是 说 ,一 般 不 添加 副作用 


scala > val nit = itflatMap | x=>print( s"Elem ; ${"i" x x}");lIterator(( "i" * x:_*) | 


Elem ; init; Iterator[ Char | = non — empty iterator 


scala > nit foreachprintln 


i 


Elem :ii 


i 


Elem :iiii 


Elem ; iii 


[B 5-34] 检索 元 素 操 作 的 代码 示例 。 
本 示例 为 迭代 器 元 素 检 索 操作 的 代码 ， 包 含 find、index0f 等 方法 的 代码 ， 示 例 代码 如 


下 所 示 : 


a SI 


// 对 迭代 器 的 元 素 检索 ,注意 返回 类 型 ,如 果 是 Some 或 None, 则 对 应 Option 


scala 


>Tterator(1 to 5 :_* )find(_ % 2 ==0) 


res0 ; Option[ Int] =Some(2) 
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//1,2,3,4,5 :索引 从 0 开始 

// 查 找 第 一 个 值 为 4 的 元 素 对 应 的 索引 值 , 得 到 3 

// 如 果 找 不 到 该 值 ,返回 -1 

scala > Iterator( 1 to 5 :_*) indexOf 4 © 
res4 ; Int =3 


. scala >Iterator(1 to 5 :_*) indexOf 6 


res7:Int= -1 


// 查 找 第 一 个 值 满足 模 2 为 零 的 元 素 对 应 的 索引 值 , 得 到 的 索引 值 为 1, 对 应 值 是 
// 如 果 找 不 到 满足 条 件 的 元 素 ,返回 -1 

scala > Iterator( 1 to 5 ;_* ) indexWhere(_ % 2 ==0) 

res) :Int = 1 


scala > Iterator(1 to5 ;_* ) indexWhere(_ % 6 ==0) 
res9 : Int = -1 


【 例 5-35) 获取 子 集合 操作 的 代码 示例 。 
本 示例 为 获取 迭代 融 的 子 集合 操作 的 代码 ， 包 含 take, drop 等 方法 的 代码 ， 示 例 代码 如 


下 所 示 : 


Se Ae ea 


No NO =e He HE Hi EE i 
有 


/A/ 刚 开始 可 以 直接 调用 ,然后 通过 反馈 信息 查看 返回 类 型 


scala > Iterator( 1 to 5 ;_* ) take 2 


a 


res16 ; Iterator[ Int] = non — empty iterator 


/ EAR ASE for 表达 式 中 的 使 用 是 非常 普遍 的 

// 这 里 迭代 地 将 迭代 器 (对 应 称 为 枚 举 器 ) 中 的 各 个 元 素 赋值 到 e 中 
//take 2 后 返回 的 迭代 器 中 只 包含 原 迭 代 器 的 前 两 个 元 素 

scala >for(e <- ( Iterator( 1 to $5 :_*) take 2) )println(e) 

1 

2 


//take 的 最 大 个 数 ,不 会 超过 迭代 器 中 的 元 素 个 数 
// 这 里 的 warning 信息 应 该 是 size 方法 的 调用 导致 的 
// 对 于 不 带 参 数 的 方法 ,不 建议 使 用 运算 符 操作 的 方式 调用 。 可 以 根据 提示 进一步 查看 


scala >Iterator(1 to 5 :_*) take 5 size 


warning ;there were 1 feature warning(s) ;re — run with — feature for details 
res26: Int =5 

scala > Iterator(1 to5 :_* ) take 6 size 

warning :there were 1 feature warning(s) ;re — run with — feature for details 
res27 ; Int =5 


语言 基础 与 开发 实战 


// VA”. ”调用 size 方法 ,去 除 警告 信息 
scala> (Iterator(1 to5 :_*) take 6). size 
res29 ; Int =5 


// 通 过 对 比方 法 结合 take 和 学习 

//drop 2 丢弃 原 迭 代 器 的 前 两 个 元 素 ,返回 包含 剩 下 元 素 的 迭代 融 
scala > for(e <— (Iterator(1 to5 :_* ) drop 2) ) println(e) 

3 

4 

5 


// 丢 弃 的 元 素 个 数 最 多 也 就 是 迭代 器 的 元 素 个 数 
scala > Iterator(1 to5 :_*) drop5 

res22 : Iterator[ Int | = empty iterator 

scala > Iterator(1 to5 :_* ) drop6 


res23 : Iterator[ Int | = empty iterator 


// 注 意 是 左 闭 右 开 [ m,n) ,因此 slice(1,3) 时 ,索引 为 1 的 包含 ,为 3 的 不 包含 
// 对 应 就 是 索引 为 1 和 2 的 元 素 , 也 就 是 2 和 3 

scala > for(e <- (Iterator(1 to5 :_*) slice(1,3)))println(e) 

2 

3 


// 下 面 是 slice 两 个 参数 可 能 的 取 值 形式 
/71. 一 种 是 超出 有 效 索 引 范 围 
scala > for(e <— (Iterator(1 to $5 :_*) slice( -=1,7)))println(e) 
1 


2 
3 
4 
5 


//2. 一 种 是 m >n 的 索引 区 间 
scala > for(e <- (Iterator(1 to5 :_*) slice(4,3)))println(e) 


// 从 下 面 的 例子 中 理解 :从 第 一 个 开始 判断 ,获取 满足 条 件 的 连续 的 最 多 元 素 
scala>for(e <- (Iterator(1 to5 :_*) takeWhile(_ == 1) ) ) println(e) 
51 


scala > for( e <- (Iterator(1 to5 :_*) takeWhile(_ >= 1) ) ) println(e) 
1 
2 


// 第 一 个 元 素 就 不 满足 
scala > for(e <— (Iterator(1 to5 ;_* ) 


© 


takeWhile(_ >1)))printlin(e) 


剩 下 几 种 获取 子 集 合 的 操作 可 以 参考 集合 的 操作 实例 部 分 内 容 ， 和 上 面 几 种 操作 


类 似 。 


【 例 S-36】 拉 链 ( Zippers) 操作 的 代码 示例 。 


所 示 : 


ST ON A or Ws ie 


N N N DD DO Tey TS ds iS) TS) e Ss = SS eS 


// 注 意 返 回 类 型 ,对 应 zip 操作 ,返回 的 结果 是 二 元 组 
scala > val nit = Iterator(1 to 5 ;_ * )zip Iterator(1 to 5 : 


nit: Iterator[ (Int, Int) ] = non — empty iterator 


scala > for(e <- nit) println( e) 
(1,1) 
(2,2) 
(33) 
(4,4) 
(Sos) 


// 注 意 zip 操作 左右 参数 的 元 素 个 数 不 同 时 的 两 种 情况 


ay) 


// 实 际 上 就 是 能 配对 (pair) 的 元 素 保 留 , 剩 下 单个 的 去 除 


scala > val nit = Iterator(1 to 5 ;_ * )zip Iterator(1 to 4 ; 


. nit;Iterator{ (Int, Int) ] = non — empty iterator 


. scala >for(e <- nit) println( e) 
au Gla 1b) 
5 (2D) 
b (3.3) 
5 (44D) 


. scala > val nit = Iterator(1 to 4 ;_ * )zip Iterator(1 to5 ;_ 


. nit;Iterator[ (Int, Int) ] = non ~ empty iterator 


. scala > for(e <- nit) println( e) 
5 bai) 
o (2,23) 
5 (353) 


ee) 


语言 基础 与 开发 实战 


(4,4) 


//zipAll 和 zip 类似, 唯一 的 差异 就 是 , 当 两 边 参数 的 个 数 不 同 时 
// 在 配对 的 时 候 会 使 用 指定 的 默认 值 

// 其 中 ,zipAll 的 第 二 个 参数 对 应 左边 迭代 器 的 元 素 默认 值 

// 第 三 个 参数 对 应 右边 迭代 器 的 元 素 默 认 值 


scala > val nit =Iterator(1 to 4 :_* )zipAll( Iterator(1 to 5 :_*),—1,6) 


nit; Iterator[ (Int, Int) ] = non — empty iterator 


scala > for(e <- nit) println( e) 
(1,1) 

(2,2) 

(3,3) 

(4,4) 

CiS) 


scala > val nit = Iterator( 1 to 5 ;_ * )zipAll( Iterator(1 to5 :_* ),-1,6) 


nit; Iterator[ (Int, Int) ] = non — empty iterator 


scala > for( e <- nit) println( e) 
(1,1) 
(2,2) 
(3,3) 
(4,4) 
(5,5) 


scala > val nit =Iterator(1 to 5 ;_ * )zipAll( Iterator(1 to 4 ;_* ), -1,6) 


nit; Iterator[ (Int, Int) ] = non — empty iterator 


scala > for( e <- nit) println( e) 
(1,1) 
(2,2) 
(35 
(4,4) 
(5,6) 


[zipWithJndex: 相 当 于 以 元 素 索引 的 迭代 器 作为 zip 的 右 参 数 
// 然 后 和 原 和 迭代 器 进行 拉链 操作 

// Pair 对 的 左边 是 元 素 值 ,右边 是 索引 值 ( 从 下 标 0 开始 ) 
scala > Iterator(1 to 5 ;_ * ). zipWithIndex foreach println 

(1,0) 

(2,1) 


2 
73. 
74. 
75: 
76. 
W 
78. 
72) 
80. 
81. 
82. 
83. 
84. 
85. 
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(3,2) 

(4,3) 

(5,4) 

// hi BIE as P A J —— AT © 
// 即 ,一 旦 元 素 个 数 不 同 ,必然 返回 false 

scala > Iterator(1 to 5 ;_* )sameElements Iterator(1 to 5 ;_ * ) 


res60 ; Boolean = true 


scala > Iterator(1 to 5 :_ * )sameElements  Iterator(1 to 6 : * ) 


res61 ; Boolean = false 


scala > Iterator(1 to 5 :_ * )sameElements  Iterator(1 to 4 ;_ * ) 


res62 ; Boolean = false 


【 例 5-37】 字 符 串 相关 操作 的 代码 示例 。 
本 示例 为 迭代 顺 字 符 串 相关 操作 的 代码 ， 包 含 addString、mkString 方法 的 代码 ， 示 例 代 


码 如 下 所 示 : 


SA e E GN A oe 


scala > val b = new StringBuilder( ) 
b : StringBuilder = 


// 注 意 addString 与 mkString 两 种 操作 的 返回 类 型 
scala > Iterator(1 to 5 ;_ * )addString(b,"{"," | WE) 


res64 ; StringBuilder = | 1 | 2 | 3 | 4 | 5} 


scala > Iterator(1 to 5 :_ * )mkString("{" ," | Uc at) 


res65 ;String = {1 |2 |3 |4 | 5} 


集合 的 架构 


Scala 的 集合 框架 基于 接口 一 致 的 理念 对 外 提供 相关 接口 。 框 架 的 设计 原则 是 尽量 避免 
重复 〈 即 代码 重 构 时 的 要 求 : 不 重复 代码 ， 有 且 仅 有 一 次 的 设计 原则 ) ， 对 外 提供 统一 的 访 
问 接口 ， 以 方便 客户 端的 使 用 。 设 计 中 使 用 的 方法 是 ， 在 集合 模板 中 实现 大 部 分 操作 ， 然 后 
由 各 个 基 类 和 具体 实现 子 类 来 继承 。 

下 面 简单 分 析 Scala 集合 框架 的 各 个 构造 块 及 其 支持 的 原则 。 

几乎 所 有 的 集合 操作 都 是 基于 遍历 器 (traversals) 和 构造 器 (builders) 来 实现 的 。 遍 
历 器 (traversals) 由 Traversable 提供 的 foreach 方法 实现 遍历 ， 对 应 的 ， 构 建 一 个 新 的 集合 
则 是 通过 一 个 Builder 实例 来 实现 的 。 


语言 基础 与 开发 实战 


下 面 是 Builder 特质 的 精简 代码 : 


. // 清 除 构造 器 中 的 内 容 , 即 
. def clear( ) : Unit 


package scala. collection. mutable 


trait Builder| - Elem, +To] | 
// Wey Fe) at IS I — ICR 
def += (elem; Elem) ; this. type 


// 从 已 添加 元 素 的 构造 器 中 生成 一 个 集合 
def result( ) :To 


lim 


EE ie ae 


. SARI ER PAL f 作用 于 当前 构造 器 的 results 上 , KEE — TY E 
. defmapResult| NewTo | (f;To => NewTo) :Builder| Elem, NewTo | =... 
15. 


| 


对 应 mapResult 方法 的 简单 使 用 的 代码 如 下 : 


NO Bi CC eset Oa NaS ge ge y 


类 库 重 构 时 ， 是 以 构建 自然 类 型 、 最 大 限度 地 实现 代码 共享 为 主要 设计 目标 的 ， 尤 其 


scala > valbuf = new ArrayBuffer[ Int | 


buf: scala. collection. mutable. ArrayBuffer[ Int] = ArrayBuffer( ) 


// FMEA TER as B01 4] SS ee SE) ET BPS A 
// 在 构造 器 实例 上 调用 mapResult , P ÆR WAI A 

// 并 且 该 构造 占 的 结果 集合 类 型 为 Array[ Int] 

scala > valbldr = buf mapResult(_. toArray ) 


bldr; scala. collection. mutable. Builder[ Int, Array| Int | ] 
= ArrayBuffer( ) 


三 | 
FE 


Scala 类 库 设 计 ， 还 同时 遵循 了 “相同 结果 类 型 ”的 设计 原则 (只 要 可 能 ,集合 的 转换 操作 
会 返回 和 集合 类 型 相同 的 结果 )。 为 了 实现 这 两 点 ，Scala 类 库 的 设计 通过 在 一 个 被 称 为 实现 
特质 ( implementation traits, 即 具有 实现 代码 的 特质 ) 上 使 用 泛 型 的 构造 器 和 集合 遍历 器 ， 
即 TraversableLike 特质 ， 该 特质 的 精简 代码 如 下 所 示 : 


1 
2 
3 
4. 
5 
6 
Y 


package scala. collection 
traitTraversableLike[ + Elem, + Repr] | 
defnewBuilder; Builder[ Elem ,Repr] //deferred 


def foreach[ U ] (f:Elem => U) ; Unit //deferred 


def filter ( p: Elem => Boolean) ; Repr = | 
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8. val b =newBuilder 


9. foreach | elem => if( p( elem) )b += elem | 

10. b. result 

11. | © 
DA 


和 Java 中 以 Impl 为 后 绥 来 提供 具体 实现 代码 类 似 ， 只 是 在 Scala 使 用 Like 作为 后 级 ， 
例如 ，Scala 的 IndexedSeq 混入 (mix -in) 了 IndexedSeqLike 特质 的 具体 实现 ， 对 应 代码 如 
下 所 示 : 


1. traitIndexedSeq[ +A] extends Seq[ A | 

2 with GenericTraversableTemplate[ A , IndexedSeq | 
3. withIndexedSeqLike[ A ,IndexedSeq[ A] ] | 

4. override def companion; GenericCompanion[ IndexedSeq | = IndexedSeq 
5 override defseq : IndexedSeq[ A | = this 

6. | 


在 Scala 类 库 设 计时 遵循 了 “相同 结果 类 型 ”的 设计 原则 ， 下 面 基于 map 转换 操作 给 出 
实现 “相同 结果 类 型 ”的 简单 分 析 ， 主 要 从 两 个 方面 进行 说 明 。 对 应 的 TraversableLike 中 
Map 转换 操作 的 代码 如 下 所 示 : 


def map[ B,That | (f:Elem => B) 
(implicit bf;CanBuildFrom[ Repr,B ,That ] ) ; That = | 


1 

之 

3 

4 /构造 器 方式 调用 ,对 应 bf. apply (this) 
5. val b=bf(this) 

6. this. foreach(x =>b +=f(x)) 

7. b. result 

8 


| 


(1) 首先 从 静态 (对 应 编译 期 ) 的 角度 去 分 析 

Map 操作 的 第 二 个 参数 为 CanBuildFrom 类 型 的 隐 式 值 ， 并 且 在 代码 中 ， 通 过 将 集合 自 
号 传人 该 隐 式 值 ， 来 构造 一 个 构造 需 变 量 b， 再 使 用 遍历 的 foreach 方法 将 转换 函数 f 作 用 于 
各 个 元 素 ， 并 且 将 结果 添加 到 构造 器 实例 中 ， 最 终 ， 再 使 用 构造 器 的 result 方法 ， 构 造 一 个 
新 的 集合 作为 返回 值 。 

其 中 ，CanBuildFrom 特质 的 精简 代码 如 下 所 示 : 


package scala. collection. generic 
// 参 数 化 类 型 : 

//1. From :为 构建 的 原 集合 类 型 
//2. Elem :为 集合 中 的 元 素 类 型 
//3. To :为 构建 的 结果 集合 类 型 


A thoy EN 
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traitCanBuildFrom| — From, -Elem, + To] | 

// 构 造 一 个 新 的 构造 器 

// 该 实例 的 结果 集合 类 型 对 应 CanBuildFrom 的 第 三 个 参数 化 类 型 To 
def apply( from; From) : Builder[ Elem ,To 

| 


由 上 可 知 ， 最 终 返 回 的 新 集合 是 由 对 应 的 构造 器 来 决定 的 ， 而 构造 器 又 是 从 CanBuild- 


From 类 型 的 隐 式 值 中 获取 的 。 在 Scala 集合 类 库 中 ， 分 别 在 不 同 集 合 中 定义 与 集合 相关 的 
CanBuildFrom 类 型 的 隐 式 值 ， 由 隐 式 值 查找 的 匹配 规则 来 决定 最 终 的 隐 式 值 。 
例如 List 集合 ， 在 List 的 伴生 对 象 中 提供 了 如 下 定义 的 隐 式 值 : 


Be A SA po A 


object List extendsSeqFactory| List ] 
import scala. collection. | Iterable ,Seq , IndexedSeq } 
/ ** $eenericCanBuildFromInfo * / 
implicit defcanBuildFrom| A | ;CanBuildFrom[ Coll, A, List{ A ] ] = 
ReusableCBF. asInstanceOf| GenericCanBuildFrom[ A | | 


| 


获取 CanBuildFrom 实例 后 ， 对 应 的 ， 集 合 自 身 也 可 以 得 到 一 个 构造 器 实例 ， 由 第 四 行 
的 隐 式 值 的 返回 类 型 可 知 ，CanBuildFrom 实例 构建 的 Builder 实例 ， 其 构建 (通过 result 操 
YE) 的 新 的 集合 类 型 为 List[ A] ， 符 合 “ 相 同 结果 类 型 ”设计 原则 。 

(2) 从 动态 (对 应 运行 期 ) 的 角度 去 分 析 

以 下 面 的 实例 进行 分 析 : 


1 
之 
3), 
4 
5 


scala > val xs; Iterable[ Int | = List(1 ,2 ,3) 
xs: Iterable[{ Int] = List(1 ,2 ,3) 


scala > val ys = xs map(x =>x * x) 


ys: Iterable[ Int | = List( 1,4,9) 


当 基 于 面向 接口 编程 进行 开发 时 ， 在 实例 中 ，xs 在 编译 时 的 静态 类 型 lierable [Int], 
对 应 该 类 型 的 隐 式 值 的 定义 代码 如 下 所 示 : 


re aS 


objectlterable extends TraversableFactory[ Iterable | | 


/** $eenericCanBuildFromInfo * / 
implicit defcanBuildFrom[ A | : CanBuildFrom| Coll, A , Iterable{ A | ] = ReusableCBF. asInstanceOf 
[ GenericCanBuildFrom|[ A | | 


/此 处 对 应 默认 构造 集合 类 对 应 的 默认 构造 器 
/默认 构造 的 集合 类 ,参考 集合 的 操作 实例 中 实例 构建 的 代码 部 分 的 内 容 


8. defnewBuilder[ A ] :Builder[ A, Iterable[ A | | = immutable. Iterable. newBuilder| A | 
| 


和 前 面 的 分 析 类 似 ， 可 以 看 出 CanBuildFrom 的 构建 的 结果 集合 的 类 型 为 Tterable[ 
对 应 的 ，Builder 的 结果 集合 的 类 型 也 为 Tterable[ A]。 但 xs 的 实际 类 型 为 List[ Int] 
时 对 xs 做 Map 操作 后 得 到 的 新 集合 类 型 为 terable[ A] ， 就 破坏 了 “相同 结果 类 型 ”的 设计 
原则 。 

在 Scala 中 ， 为 了 解决 上 面 破坏 设计 原则 的 问题 ， 利 用 了 抽象 类 型 中 的 动态 绑 定 机 制 ， 
由 具体 集合 类 型 自身 提供 构建 构造 器 的 方法 ， 即 newBuilder 方法 。Xs 在 运行 期 的 类 型 实际 
是 List[ Int] ， 由 于 动态 绑 定 ， 实 际 调用 的 是 List 的 newBuilder 方法 。 在 List 中 该 方法 的 定义 
如 下 所 示 : 


1. object List extendsSeqFactory[ List] | 
Ves SA 
3. defnewBuilder[ A ] ; Builder[ A, List[ A ] ] = new ListBuffer[ A | 
4 
> 
可 以 看 到 ，List 的 newBuilder 方法 中 指定 了 List[ A] ， 也 就 是 这 里 的 List[ Int] ， 作 为 构 
造 器 的 结果 集合 类 型 ， 因 此 最 终 也 遵循 了 “相同 结果 类 型 ”的 设计 原则 。 


5.8 小 结 


本 章 参 考官 网 内 容 ， 在 介绍 各 类 集合 的 基础 上 ， 详细 描述 了 各 集合 所 提供 的 操作 ， 包 括 
可 变 集 合 与 不 可 变 集 合 、 序 列 、 列 表 、 集 、 映 射 等 内 容 ， 最 后 基于 各 个 操作 的 使 用 实例 及 其 
分 析 ， 来 加 深 对 Scala 集合 类 库 的 理解 。 


wae 


本 篇 在 前 述 Scala 语法 的 基础 之 上 ， 逐步 深入 ， 引 导读 者 进一步 学 习 领 悟 Scala 


的 高 级 语法 特性 及 其 应 用 ， 以 提高 读者 的 编程 开发 技能 ， 更 好 地 应 用 Scala 的 高 级 
特性 及 功能 ， 进 而 帮助 读者 更 好 地 理解 后 续 分 布 式 框架 篇 章 的 内 容 。 在 Scala 高 级 
篇 中 ， 详 细 介 绍 了 Scala 类 型 参数 、 高 级 类 型 和 隐 式 转换 ， 并 配 以 实例 及 Spark 源 
码 的 形式 进行 分 析 详解 。 在 本 篇 最 后 ， 详 细 解 析 了 Scala 语言 原生 支持 的 Actor 模 
型 ， 引 入 Scala 并 发 编程 的 介绍 ， 以 此 衔接 并 引导 读者 进入 下 一 篇 Sceala 分 布 式 框 
架 的 探索 。 
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本 章 将 解释 Scala 类 型 参数 化 的 相关 细节 ， 包 括 泛 型 、 类 型 界定 与 约束 、 类 型 系统 ， 以 
及 类 型 的 型 变 等 内 容 ， 并 针对 各 个 内 容 给 出 实例 及 其 解析 。 在 内 容 描 述 及 实例 分 析 的 过 程 
中 ， 根 据 知识 点 的 难 易 程度 ， 适 当地 引入 相关 的 Scala 类 库 中 的 源码 ， 在 结合 源码 的 基础 上 
深入 分 析 各 个 知识 点 背后 的 原理 。 


SY 泛 型 的 概述 ) 


Java 泛 型 是 Java 5 的 新 特性 ， 泛 型 的 本 质 是 参数 化 类 型 ， 也 就 是 说 所 操作 的 数据 类 型 被 
指定 为 一 个 参数 。 这 种 参数 类 型 可 以 用 在 类 、 接 口 和 方法 的 创建 中 ， 分 别称 为 泛 型 类 、 泛 型 
接口 和 泛 型 方法 。 

和 Java 5 一 样 ，Scala 也 内 置 支持 类 型 的 参数 化 ， 为 了 基于 JVM 运行 ，Scala 也 采用 了 
Java 的 泛 型 氛 除 模式 (erasure) ， 即 类 型 是 编译 期 的 ， 在 运行 时 会 被 “擦拭 ” 掉 ， 也 就 是 运 
行 时 看 不 到 类 型 参数 。 

Java 为 了 保证 向 后 兼容 性 ， 导 致 在 某 些 方面 存在 不 足 ， 而 Scala 则 没有 这 些 包 裕 ， 因 此 
Scala 在 泛 型 上 走 得 更 远 ， 超 越 了 Java， 具 体 体 现在 以 下 几 个 方面 (在 此 引用 Scala 创始 人 
Martin Odersky 对 Scala 泛 型 这 方面 的 描述 ) : 

首先 是 Arrays, Scala 中 的 Array 可 以 取 泛 型 参数 (parameterized types) 及 类 型 变量 
(type variables) 来 做 其 元 素 的 类 型 。 

第 二 ， 对 基本 类 型 (primitive types) 的 支持 。 

第 三 ， 声 明 地 点 可 变性 (declaration site variance) 。 

第 四 ， 对 于 上 下 界 的 支持 (lower bound & upper bound), ， 以 及 将 多 个 上 界 (multiple 
upper bonds) 作为 复合 类 型 (compound type) 模式 的 支持 。 

在 Scala 中 ， 类 、 特 质 及 函数 都 可 以 带 类 型 参数 ， 类 型 参数 使 用 方 括 号 来 定义 ， 对 应 参 
考 泛 型 在 Scala 类 库 中 的 定义 如 下 : 


1. /类 型 参数 在 类 中 的 使 用 
2. /类 型 Stack 中 的 A 在 定义 时 是 没有 指明 具体 类 型 的 
3. ”// 在 使 用 的 时 候 才 去 指明 具体 的 类 型 (或 由 Scala 的 类 型 推断 自动 推导 出 具体 类 型 ) 


om 
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// 男 外 A 前 面 的 + 对 应 型 变 的 内 容 ,具体 参考 型 变 章节 


class Stack[ + A] protected( protected valelems;List{ A ] )... 


// 类 型 参数 在 特质 中 的 使 用 


traitSeq[ + A] extends PartialFunction[ Int, A]... 


10.// 类 型 参数 在 函数 中 的 使 用 
11. defnewBuilder[ A|:Builder[ A,Seq[ A] | = immutable. Seq. newBuilder[ A ] 


泛 型 的 操作 示例 ) 


通过 对 泛 型 概念 的 理解 ， 定 义 了 包含 3 个 类 型 参数 的 Triple 类 ， 同 时 采用 了 不 同 的 类 型 
参数 来 实例 化 Triple 类 ; 此 外 ， 还 定义 了 带 一 个 泛 型 参数 的 getData 方法 ,演示 了 泛 型 函数 
的 相关 定义 与 操作 方法 ; 最 后 针对 Scala 类 库 提供 的 泛 型 集合 类 Queue， 给 出 了 部 分 操作 实 
例 。 对 应 的 泛 型 类 和 泛 型 函数 实例 代码 如 例 6-1 所 示 。 

【 例 6-1】 泛 型 的 操作 示例 。 

本 示例 通过 常见 的 Triple (三 元 组 ) 的 泛 型 类 定义 ， 给 出 泛 型 类 的 使 用 说 明 ， 示 例 代 码 
如 下 所 示 : 


1. import scala. collection. immutable. Queue 

2. 

3. //7EX Triple( 三 元 组 ) 泛 型 类 

4. ”// 通 过 类 型 参数 化 ,可 以 避免 为 特定 类 型 重复 写 代码 [ ml ] 
5. /对 应 的 3 个 参数 的 类 型 为 Triple 类 中 的 参数 化 类 型 FS、T 
6. class Triple[ F,S,T] (val first: F, val second:S, val third:T) 

gE 

8. object Hello_Type_Parameterization | 

9. 

10. def main(args:Array| String] ) | 

11. /两 种 类 型 参数 列表 构建 Triple 类 的 实例 

12. //Scala 支持 类 型 推断 ,可 以 推断 出 各 参数 的 类 型 

13. // 推 断后 ,对 应 下 为 String 类 型 ,S 为 Int 类 型 ,了 为 Double 类 型 
14. val triple = new Triple("Spark" ,3 ,3. 1415) 

15. 

16. // 明 确 指 定 Triple 类 的 3 个 参数 化 类 型 

17. val bigData = new Triplel String, String, Char | ("Spark" ," Hadoop"', R ) 
18. 

19，// 定 义 带 一 个 泛 型 参数 了 的 getData 方法 

20. def getData[ T] (list :List[ T] ) = list( list. length / 2) 

21. println( getData( List( "Spark" ," Hadoop"', R ) ) ) 
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22% 

23. /下 面 的 定义 语句 对 应 偏 应 用 函数 , 即 部 分 参数 未 指 

24. /这 里 属于 特殊 情况 , 即 全 部 ( 当前 仅 一 个 ) an 

25. val f= getData[ Int] _ > 
26. println(f( List(1,2,3,4,5,6) ) ) 

Dil 

28. /使 用 Scala 类 库 的 泛 型 集合 类 Queue 来 演示 泛 型 的 相关 操作 

29. val queue = Queue(1 ,2,3,4,5) 


30. val queue_appended = queue enqueue 6 
31. println(" queue ;" + queue + "" 
32, 

Bh | 


34. 


+ " queue_appended ;" + queue_appended ) 


对 于 带 有 参数 化 类 型 的 类 ， 比 如 本 例 中 的 Triple 类 ， 在 指定 了 具体 的 参数 类 型 后 就 可 以 
构造 新 的 类 型 ， 对 应 地 ， 指 定 的 参数 类 型 不 同 就 有 了 不 同 的 类 型 (比如 实例 代码 中 包含 的 
Triple[ String, Int , Double ] 与 Triple[ String,String,Char] ， 对 应 了 两 个 具体 类 型 )， 因 此 参数 化 
类 型 的 泛 型 类 ， 对 应 了 类 型 的 家 族 ， 该 家 族 包 含 不 同 的 具体 参数 化 类 型 后 的 类 型 。 

泛 型 类 的 新 类 型 构建 与 单纯 传统 的 a 构造 器 的 实例 构建 对 比 : 

1) 泛 型 类 的 新 类 型 构建 : 为 参数 化 的 类 型 ， 指 定 具体 的 类 型 。 

2) 单纯 传统 的 (plain - old) ee 为 具体 类 型 的 参数 ， 指 定 具 体 的 值 。 
即 各 自 具体 化 在 定义 时 所 参数 化 的 对 象 。 


6.2 ek 


在 描述 Scala 的 类 型 界定 时 ， 会 涉及 隐 式 转换 与 隐 式 值 相关 的 内 容 ， 这 里 不 做 详细 描 
述 ， 具 体 信 息 请 查阅 本 书 的 相关 章节 。 
在 Java 泛 型 中 ， 也 有 类 型 的 上 下 界定 ， 定 义 形 式 如 表 6-1 所 示 。 
表 6-1 类 型 变量 的 上 、 下 界定 义 语法 


界定 类 型 语 法 说 明 


类 型 上 界 <A extends T> 或 <? extends T > 类 型 上 界 ， 表示 参数 化 类 型 可 能 是 T 或 是 T 的 子 类 
类 型 下 界 Se Core 中 叫 超 类 型 限定 ) ， 表 示 参 数 化 类 型 是 此 类 型 
类 型 下 界 <A super T > 或 <? super T > 的 超 类 型 ( 类 型 ) ， 直至 Object 


其 中 ，A 表示 某 个 参数 化 类 型 ,? 为 表示 类 型 的 通配符 。 

相 比 Java 的 上 下 界 界 定 ， 在 Scala 泛 型 中 ， 类 型 界定 的 种 类 更 加 丰富 ， 应 用 也 更 加 灵 
活 ， 而 且 通 过 不 同类 型 的 界定 ， 可 以 让 编译 器 帮忙 做 更 多 的 编译 器 检查 ， 降 低 客户 端 代码 使 
用 的 难度 。 


语言 基础 与 开发 实战 


6.2.1 上 下 界 界定 


Scala 中 类 型 变量 的 界定 有 两 种 ， 类 型 变量 的 上 界 (upper bound) 和 和 下界 (lower 
bound) ， 对 应 的 定义 形式 如 表 6-2 所 示 。 
表 6-2 类 型 变量 的 上 、 下 界 的 定义 语法 


界定 类 型 语 法 说 明 
类 型 上 界 T:<U 定义 了 为 了 的 上 界 ， 即 了 必须 是 U 的 子 类 
类 型 下 界 T>:L ELT LATO PR, EIT Vie L 的 超 类 


6202) 视图 界定 


上 下 界 界定 (T : <U 或 T> :L) 要 求 参数 类 型 T 必须 是 指定 类 型 (URL) 的 子 类 或 
超 类 。 对 应 的 视图 界定 (View Bounds) 则 比 上 下 界 界定 的 边界 要 弱 ， 没 有 强制 要 求 类 具有 
父子 关系 ， 而 仅仅 要 求 存 在 一 个 类 型 间 的 隐 式 转换 ， 对 应 的 语法 如 表 6-3 所 示 。 

表 6-3 视图 界定 的 定义 语法 
界定 类 型 语 法 说 明 


表示 参数 化 类 型 T 可 以 被 隐 式 转换 (implicit conversion) 成 类 
型 Vy， 即 要 求 必须 存在 一 个 从 T 到 V 的 隐 式 转换 


视图 界定 T<%V 


6.2.3 上 下 文 界定 


上 一 节 中 的 视图 界定 T<%V 要 求 必须 存在 一 个 从 T 到 V 的 隐 式 转换 ， 即 存在 类 型 的 隐 
式 转 换 。 对 应 的 上 下 文 界定 (Context Bounds ) ， 也 类 似 地 存在 一 个 隐 式 值 的 概念 ， 其 语法 如 
表 6-4 所 示 。 
表 6-4 上 下 文 界定 的 定义 语法 
界定 类 型 语 法 说 明 


上 下 文 界定 T:M 表示 参数 化 类 型 了 T 存 在 一 个 MIT] 的 隐 式 值 


即 视图 界定 要 求 存在 一 个 类 型 的 隐 式 转换 ， 上 下 文 界定 则 要 求 存在 一 个 隐 式 值 。 而 隐 式 
值 比 隐 式 转换 会 更 加 灵活 。 


6.2.4 


Java 中 也 可 以 实现 多 重 界定 ， 具 体 语 法 如 表 6-5 所 示 。 
表 6-5 Java 中 多 重 界定 的 定义 语法 
界定 类 型 语 法 说 明 


多 重 界 定 <T extends A&B> T 同时 是 A 和 B 的 子 类 ， 称 为 multiple bounds 
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而 对 于 lower bounds， 在 Java 里 则 不 支持 multiple bounds 的 形式 。 
Scala 里 上 界 和 下 界 不 能 有 多 个 ， 不 过 变通 的 做 法 是 使 用 复合 类 型 (compound type), 在 
Scala 中 ,对 于 A with B 相当 于 (A with B) ， 具 体内 容 请 参考 本 书 7.7 复合 类 型 内 容 ， 具 体 


语法 如 表 6-6 所 示 。 > 
6-6 使 用 复合 类 型 实现 多 重 界定 的 定义 语法 
界定 类 型 语 法 说 AA 
实现 多 重 上 界 界定 [T<:A with B] T 同 时 是 A 和 B 的 子 类 
实现 多 重 下 界 界定 [T>:A with B] T 同 时 是 A 和 3B 的 超 类 


在 Scala 中 支持 的 多 重 界定 有 几 种 ， 对 应 的 具体 语法 如 表 6 -7 所 示 。 
表 6-7 Scala 中 支持 的 多 重 界定 的 定义 语法 


界定 类 型 语 法 说 明 

同时 上 下 界 界定 T>:L<:U 表示 类 型 变量 T 同时 有 上 界 U 和 下 界 工 

多 个 视图 界定 T<% VI[T] <% V2[T] T 同时 可 以 隐 式 转换 为 V1[T] 和 V2[T] 类 型 
多 个 上 下 文 界定 T :U :ClassTag T 同时 存在 到 U 和 ClassTag 的 隐 式 值 


SS 界定 的 操作 示人 ) 


下 面 根据 前 几 个 小 节 所 列 的 各 个 界定 种 类 ， 分 别 给 出 具体 的 操作 示例 及 其 解析 。 
【 例 6-2】 上 下 界 界定 的 操作 示例 。 
本 示例 包含 边界 的 上 界 界 定 与 下 界 界定 ， 示 例 代码 如 下 所 示 : 


// 通 过 对 类 型 了 进行 上 界 界 定 , 即 指定 了 是 Comparable[T] 的 子 类 
// 由 于 子 类 继承 了 父 类 的 接口 
// 因 此 在 后 续 代 人 码 中 才能 使 用 超 类 Comparable[T] 的 特定 方法 :compareTo 
// 如 果 不 加 上 界 界定 , 则 无 法 识别 compareTo 方法 
//class Pair[ T] (val first :T ,val second :T) 
class Pair[ T < :Comparable[ T] ] (val first :T, val second :T)| 
def bigger = if( first. compareTo( second) >0) first else second 


| 


ye ml A A er S 


= 


class Pair_Lower_Bound| T ] (val first; T ,val second: T) f 

. // 在 函数 的 参数 类 型 中 使 用 了 类 型 变量 的 下 界 界定 

// 这 里 涉及 面向 接口 编程 的 思想 

// 或 里 氏 蔡 换 原 则 ( Liskov substitution principle ,LSP) 

14. //replaceFirst 方法 在 Pair_Lower_Bound 类 中 ,对 应 的 参数 化 类 型 了 可 以 转换 为 超 类 
15.// 因 此 方法 指明 了 下 界 界定 ,指明 R 为 了 的 超 类 

16. /最 终 可 以 把 Pair_Lower_Bound 类 中 的 了 类 型 的 实例 转换 为 超 类 R 类 型 


= 
=N 


D> 


2> 
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17. /最 后 返回 的 是 构建 的 元 素 类 型 为 超 类 R 的 Pair_Lower_Bound 实例 

18. // 比 如 TT 为 Student,R 为 Person 

19. /此 时 如 果 将 Pair_Lower_Bound[ Student | 实例 的 第 一 个 元 素 student_1 

20. // 蔡 换 (replaceFirst) 为 person_1 ,对 应 返回 的 结果 为 Pair_ Lower_Bound[ Person ] 

21. // 原 Pair_Lower_Bound[ Student | 中 的 各 个 元 素 student_2 ,--- ,student_n 

22. // 都 是 可 以 转换 为 超 类 Person 类 型 的 ,反之 , 超 类 Person 转 具体 子 类 

23. /会 违背 里 氏 替 换 原 则 的 设计 原则 

24. def replaceFirst[ R > :T | (newFirst:R) = new Pair_Lower_Bound[ R | ( newFirst , second ) 


27. object Typy_Variables_Bounds | 

28. def main( args : Array[ String] ) | 

29. // 类 型 推断 得 到 为 String 类 型 ,对 应 的 超 类 为 Comparable[ String | 
30. val pair = new Pair("Spark" ," Hadoop" ) 

31. println( pair. bigger ) 


33. | 


查看 Java 类 库 的 String 类 ， 可 以 看 到 String 确实 是 Comparable [String] 的 子 类 ， 并 且 实 
现 了 compareTo 方法 ， 对 应 代码 如 下 : 


public final class String 
implements java. io. Serializable ,Comparable < String > , CharSequence 
/ ** The value is used for character storage. * / 


private final char value[ ] ; 


1 
2 
3 
4 
5. 
6. public int compareTo( String anotherString) | 
if nae 
8. | 
O; | 

【 例 6-3】 视 图 界定 的 操作 示例 。 

本 示例 给 出 视图 界定 的 应 用 实例 并 与 上 界 界定 进行 比较 ， 突 出 视图 界定 的 限制 条 件 ， 示 
例 代码 如 下 所 示 : 


// 此 处 为 上 界 界定 :声明 参数 化 的 类 型 T 必须 是 Comparable[ Tj] 的 子 类 
//class Pair_NotPerfect[ T < :Comparable| T] | (val first :T,val second :T) | 
// def bigger = if( first. compareTo( second) >0) first else second 

//} 


CY ES eS ee 


// 此 处 为 视图 界定 :声明 参数 化 的 类 型 T 存在 一 个 到 类 型 Comparable[ T] 的 隐 式 转换 
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7. ”// 此 时 没有 强制 要 求 类 型 T 必须 是 Comparable[T] 的 子 类 
8. class Pair_NotPerfect| T <% Comparable[ T] | (val first :T,val second :T) | 
9. def bigger = if( first. compareTo( second) >0) first else second 


12.，// 此 处 为 视图 界定 :声明 参数 化 的 类 型 存在 一 个 到 类 型 Ordered[T] 的 隐 式 转换 
13. class Pair Better[T< % Ordered[ T| | (val first :T,val second :T) | 
14. def bigger = if( first > second) first else second 


17. object View_Bounds | 

18. def main( args; Array[ String] ) | 

19.，// 类 型 推断 出 T 为 String 

20. //1. “4 Pair_NotPerfect 类 的 参数 化 类 型 定义 为 :T < :Comparable[T] :时 
21，// 要 求 String 为 Comparable[ String ] 的 子 类 型 ,通过 本 章 内 容 
22，// 已 经 知道 String 满足 该 条 件 
23. //2. “4 Pair_NotPerfect 类 的 参数 化 类 型 定义 为 :T <% Comparable[T] :时 

24. //X DM String 的 分 析 和 下 面 的 Int 相同 ,由 于 了 为 mnt 时 ,第 一 种 定义 方式 编译 失败 
25.// 因 此 下 面 以 Int 为 例 进行 详细 分 析 

26. val pair = new Pair_NotPerfect(" Spark" ," Hadoop" ) 


Bil println( pair. bigger) 

28.，// 类 型 推断 出 了 为 Int 

29. //1. ~4 Pair_NotPerfect 类 的 参数 化 类 型 定义 为 :T < :Comparable[T] :时 
30. // 22 Int 为 Comparable[ Int | 的 子 类 型 ,而 该 条 件 不 满足 

31. /因此 ,此 时 编译 融会 报错 ,提示 类 型 不 匹配 的 错误 

32. //2. 当 Pair_NotPerfect 类 的 参数 化 类 型 定义 为 :T< % Comparable[T] :时 
33，// 视 图 界定 的 相关 代码 分 析 比 较 复 杂 , 因 此 在 下 面 专门 给 出 详细 分 析 


34. val pairInt = new Pair_NotPerfect(3,5)//Int -> RichInt 

35. println( pairInt. bigger ) 

36. 

37，// 参 数 化 类 型 定义 为 T< 和 % Ordered[T] 的 分 析 同 前 面 了 为 Int 时 的 分 析 

38. val pair_Better_String = new Pair_Better(" Java" ," Scala" )//String -> RichString 
39. println( pair_Better_String. bigger) 

40. val pair_Better_Int = new Pair_Better(20, 12) 

41. println( pair_Better_Int. bigger) 

42. } 

43. |} 


下 面 针 对 以 下 代码 开始 分 析 视 图 界定 (要求 存在 类 型 间 的 隐 式 转换 ) ， 相 对 应 ， 当 为 
Int 时 ， 查找 存在 的 Int 到 Comparable [Int] AY Bact FE Hi RKI Z, 同时 通过 该 分 析 ， 进一步 详 
细 解 析 视 图 界定 内 部 的 工作 原理 ， 针 对 本 例 中 的 代码 : 


1 
2 
3. 
4 
5 
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class Pair_NotPerfect{ T < % Comparable[ T] ] (val first :T,val second :T) | 


def bigger = if( first. compareTo( second) >0) first else second 


} 
valpairInt = new Pair_NotPerfect(3 ,5)//Int -> RichInt 


. println( pairInt. bigger) 


1) 首先 ， 由 代码 first. compareTo (second) 可 知 ， 当 前 在 Int 上 调用 了 compareTo 操作 ， 
因此 可 能 需要 一 个 隐 式 转换 ， 对 应 Int 的 隐 式 转换 ， 在 预先 导入 的 objectPredef 中 ， 能 够 查 到 
Int 可 以 隐 式 转换 为 RichInt 类 型 ， 相 关 代 码 如 下 : 


1. 
De 


object Predef extends LowPriorityImplicits | 


进一步 查看 LowPriorityImplicits 代码 ， 


KA) chase) (eae dee 


Ko ee Ssh fen 


@ inline implicit def byteWrapper( x: Byte ) = new runtime. 


@ inline implicit def shortWrapper( x; Short ) = new runtime. 
@ inline implicit def intWrapper( x: Int) = new runtime. 
@ inline implicit def charWrapper( c ; Char) = new runtime. 
@ inline implicit def longWrapper( x; Long) = new runtime. 
@ inline implicit def floatWrapper( x; Float) = new runtime. 


@ inline implicit def doubleWrapper(x;Double) = new runtime. 


@ inline implicit def booleanWrapper( x; Boolean) = new runtime. 


RichByte(x) 
RichShort (x) 
RichInt(x) 
RichChar(c) 
RichLong(x) 
RichFloat(x) 
RichDouble( x) 
RichBoolean( x) 


其 中 ,第 4 行 代码 定义 了 Int 到 RichInt 的 隐 式 转换 函数 ， 因 此 可 以 转换 。 
2) 分 析 RichInt 中 是 否 有 需要 调用 的 compareTo 方法 (这 一 步 分 析 也 可 以 放 到 最 前 面 )， 


通过 对 RichInt 类 型 的 继承 层次 的 分 析 ， 可 得 相关 类 图 ， 如 图 6-1 所 示 。 


从 图 6-1 中 可 以 看 出 ，RichlInt 继承 了 Comparable 的 compareTo 方法 ， 因 此 Int 到 RichInt 
的 隐 式 转换 在 此 有 效 ， 即 first. compareTo( second ) 代码 最 终 调用 了 RichInt 继承 下 来 的 compa- 


reTo 方法 。 


由 Comparable 的 compareTo 方法 的 实现 可 知 ， 最 终 调用 了 compare 方法 ， 而 同时 在 继承 
的 子 类 OrderedProxy 中 也 实现 了 compare 的 方法 ， 具 体 代 码 如 下 所 示 : 


1 
2 
3. 
4 


traitOrderedProxy| T] extends Any with Ordered[ T] with Typed[T] | 


protected def ord; Ordering| T | 
def compare( y:T) = ord. compare (self, y) 


| 


最 终 调 用 了 类 型 为 Ordering[ T] HJ ord 成 员 变 量 的 compare 方法 ， 通 过 查看 RichInt 类 的 
源码 ， 可 以 看 到 ord 被 定义 为 scala. math. Ordering. Int， 代 码 如 下 所 示 : 
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《接口 》 
java.lang.Comparable[A] 


def compare(that: A): Int 


def compareTo(that: A): Int=compare(that) 
ZX 


《接口 》 
trait Ordered[A] 


八 


《接口 》 
trait OrderedProxy[T] 


八 


《接口 》 
trait ScalaNumberProxy[T] 


八 
final class RichInt(val self: Int) 


二 == 
图 6-1 RichInt 类 型 的 继承 类 图 


1. final classRichInt(val self; Int) extends AnyVal with ScalaNumberProxy|[ Int] with RangedProxy 
[Int] | 

Ds protected def num = scala. math. Numeric. IntlsIntegral 

3. protected def ord = scala. math. Ordering. Int 

4. typeResultWithoutStep = Range 

SE 

6. } 


对 应 的 scala. math. Ordering. nt， 实际 上 是 一 个 继承 并 实现 compare 方法 的 Ordering[ Int ] 
类 型 的 一 个 隐 式 值 ， 也 就 是 最 终 调用 了 该 隐 式 对 象 ， 实 现 了 Int 的 比较 ， 对 应 的 隐 式 值 对 象 
定义 如 下 : 


traitIntOrdering extends Ordering[ Int] | 
def compare( x:Int,y:Int) = 
if(x<y) -1 
else if(x ==y)0 
else 1 


| 


implicit object Int extendsIntOrdering 


ah ON hy Bah SE es 


至 此 ， 已 经 成 功 得 到 了 T 为 Int 类 型 的 比较 ， 同 时 也 证 明了 确实 存在 Int 到 Comparable 
[ Pt] 的 隐 式 转换 函数 (参考 RichInt 类 图 ) 。 
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© 代码 分 析 技 巧 : 将 以 上 代码 复制 到 IDE (此 处 以 Intellij IDEA 为 例 ) 中 ,在 代码 val 
pairlnt = new Pair_NotPerfect(3 ,5)//Int -> RichInt 处 设置 断 点 ， 启 动 Debug， 当 到 达 该 
断 点 时 ， 多 次 使 用 Force Step Into( Alt + Shift + Ff7)， 强 制 跟踪 代码 的 调用 细节 ， 对 应 
强制 进入 的 按钮 在 调试 工具 栏 中 的 位 置 如 图 6-2 所 示 。 


| Force Step Into (Alt+Shift+F7) | 


~ uz S Chic ws 


图 6-2 调试 按钮 工具 栏 


o 补充 说 明 : 上 面 分 析 中 没有 给 出 各 个 类 的 具体 路 径 ， 可 以 在 对 应 的 IntelliJ IDEA 中 通 
过 Curl + N 组 合 键 打开 类 型 查找 窗口 ， 查 找 指定 类 型 。 

【 例 6-4】 上 下 文 界定 的 操作 示例 。 

注意 本 例 中 上 下 文 界定 与 视图 界定 之 间 的 差异 所 在 ， 示 例 代码 如 下 所 示 : 


// 参 数 化 类 型 的 定义 T :Ordering 指明 了 存在 一 个 类 型 为 Ordering[T] 的 隐 式 值 

class Pair_Ordering| T ; Ordering | (val first :T,val second :T)| 
// 在 bigger 函数 中 使 用 了 一 个 类 型 为 Ordering[T] 的 隐 式 值 

// 由 于 前 面 参数 化 类 型 的 定义 已 经 保证 了 存在 这 么 一 个 隐 式 值 

// 因 此 在 未 明确 指定 bigger 参数 的 情况 下 ,bigger 函数 将 会 使 用 该 隐 式 值 作 为 参数 

// 由 于 该 隐 式 值 的 类 型 为 Ordering[T] ,因此 可 以 调用 Ordering[T] 提 供 的 接口 compare 
def bigger(implicit ordered:Ordering[ T] ) = | 


SS 


if( ordered. compare ( first , second ) >0) first else second 


| 


RP eh TON AS ees ted LES te 


=. = = 
SS 


object Context_Bounds | 


2 


def main( args; Array[ String | ) | 
// BRAE TAN String 
val pair = new Pair_Ordering( " Spark" ," Hadoop" ) 


=. = 
2 


16. // 在 未 明确 指定 bigger 参数 的 情况 下 

17. //bigger 函数 将 会 使 用 类 型 为 Ordering[ String ] 的 隐 式 值 
18. println( pair. bigger) 

19. /由 类 型 推断 可 得 了 类 型 为 nt, 具体 分 析 同 上 

20. val pairInt = new Pair_Ordering(3 ,5 ) 

Dill println( pairInt. bigger ) 

2. | 

23, | 


通过 查看 Scala 类 库 中 Ordering 的 定义 ， 可 以 看 到 其 中 已 经 提供 了 许多 Ordering[T] 类 型 
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的 隐 式 值 ， 比 如 Ordering[ String ] 隐 式 值 的 定义 代码 如 下 所 示 : 


Bo MeN EAD hoki SL Pees 


8. 


// SK Ordering 的 定义 可 以 看 到 ,Ordering[T] 继 承 了 Comparator[ T] 接口 

// 因 此 Ordering[ T] 的 实例 ( 即 该 隐 式 值 ) 也 继承 了 Comparator[T] 提供 的 compare 方法 © 

trait StringOrdering extends Ordering String] | 

// 前 面 bigger 函数 调用 了 Ordering[ String | 的 compare 方法 进行 比较 

// 对 应 的 StringOrdering 实现 了 该 方法 

// 因 此 下 面 的 隐 式 值 (implicit object String) 也 继承 了 该 方法 
def compare( x:String,y:String) = x. compareTo( y) 

} 


implicit object String extends StringOrdering 


另外 ,在 Ordering 中 已 经 定义 了 许多 常见 类 型 T 的 Ordering[T] 隐 式 值 。 
补充 说 明 : 这 里 的 Ordering 不 需要 导入 ， 对 应 在 Scala 中 的 package object scala 已 经 给 出 
了 类 型 别名 ， 因 此 可 以 直接 使 用 ， 对 应 代码 如 下 所 示 : 


1. 
2 
3h 


4. 


package object scala extends scala. AnyRef | 


type Ordering| T] = scala. math. Ordering| T | 


val Ordering = scala. math. Ordering 


【 例 6-5】 多 重 界定 的 操作 示例 。 
本 示例 以 多 重 上 下 文 界定 为 例 给 出 多 重 界定 的 使 用 说 明 ， 示 例 代码 如 下 所 示 : 


St ON Ea bee ANY eS 


=. = =e = 
S N A S 


class M_A[T] 
class M_B[T] 
object Multiple _Bounds | 
def main( args; Array| String | ) | 
implicit val a = new M_A| Int | 
implicit val b = new M_B[ Int | 


// 多 重 上 下 文 界定 ,要 求 存 在 T 到 M_A 和 M_B 的 隐 式 值 

def fool T :M_A :M_B ](i:T) = println(" OK" ) 

// 此 时 TT 类 型 为 Int, 存 在 Int 到 M_A[ Int] 的 隐 式 值 a、 到 M_B[ Int] WK SUA b 
foo(2) 


| Section | 
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类 型 约束 


6.3.1 


类 型 约束 的 概述 ) 


类 型 约束 提供 了 另 一 种 限定 类 型 的 方式 ， 类 型 约束 是 Scala 类 库 提供 的 特性 。 在 Scala 
中 有 3 种 约束 关系 具体 语法 如 表 6-8 所 示 。 


表 6-8 约束 关系 的 定义 语法 


界定 类 型 语 法 说 明 
类 型 等 同 约束 工 = := U 测试 了 类 型 是 否 等 同 于 U 类 型 
子 类 型 约束 T<:< U 测试 了 类 型 是 否 为 U 类 型 的 子 类 
视图 (Bash) 转换 约束 T<% <U 测试 了 类 型 能 否 被 视图 (KAR) 转换 为 U 类 型 


但 视图 (Bast) 转换 约束 在 Scala 2. 10 版 本 中 已 经 被 废弃 (有 兴趣 的 读者 可 以 查看 
Scala 2. 8 版 本 的 源码 ) ， 本 章 基 于 Scala 2. 10 类 库 查 找 约束 的 定义 ， 对 应 代码 如 下 所 示 : 


// 类 型 约束 


@ implicitNotFound( msg =" Cannot prove that $ {From} <:< $ |To}.") 

//< :<[ —From, +To] 类 继承 了 类 型 为 From => To 的 Function! 特质 

// 对 应 了 From 类 型 为 To 类 型 的 子 类 

/A( 从 对 应 的 apply 方法 定义 去 理解 ,同时 由 于 是 定义 ,因此 是 在 编译 期 间 生 效 ) 
// 说 明 

//1. From 逆 变 位 置 , 对 应 输入 的 类 型 为 From 的 父 类 

//2. To 协 变 位 置 ,对 应 输出 的 类 型 为 To 的 子 类 

// 在 From => To 的 输入 输出 转换 中 ,对 应 了 From 父 类 可 以 转换 为 To 的 子 类 


.// 对 应 地 ,From 编译 时 需要 就 满足 是 To 的 子 类 的 条 件 


sealed abstract class < ; < [ — From, + To] extends( From => To) with Serializable 

// 定 义 了 一 个 继承 < : < 抽象 类 的 匿名 类 的 实例 singleton_< : < 

private[ this] final val singleton < : <= new < ; < [ Any, Any] | def apply(x:Any):Any=x | 
//not in the < ; < companion object because it is also 

//intended to subsume identity ( which is no longer implicit) 

// 定 义 了 一 个 隐 式 转换 ,其 中 A < <A 是 个 中 级 类 型 

implicit def conforms[ A ] ;A < ; < A =singleton_<: <. asInstanceOf[ A<: <A] 


// 分 析 与 < : < 类 似 
// 差 异 点 在 于 < :<[ -From, +To]:From 类 型 处 于 逆 变 ,To 处 于 协 变 位 置 


.// 而 = : = [ From, To] ; From 和 To 类 型 都 使 用 了 默认 的 型 变 


@ implicitNotFound( msg =" Cannot prove that $ {From} =; = $ |To}.") 
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sealed abstract class = ; = [ From,To]| extends( From => To) with Serializable 
private[ this ] final val singleton_= ; == new =; =[Any,Any] | def apply(x:Any) : Any =x | 
object = ; = | 
implicit def tpEquals[ A] ;A =; =A =singleton_= ; =. asInstanceOf[ A=; =A] © 


ESD 类 型 约束 的 操作 示例 


【 例 6-6】 类 型 约束 的 操作 示例 。 
本 示例 介绍 当前 两 种 类 型 约束 的 应 用 ， 示 例 代码 如 下 所 示 : 


1 
2 
3 
4 
5. 
6 
7 
8 
9 
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object Type_Contraints | 
def main( args; Array| String | ) | 
//A=:=B /表示 和 A 类 型 等 同 于 B 类 型 
//A<:<B /表示 A 类 型 是 B 类 型 的 子 类 型 
def rocky[ T] (i: T) (implicit ev:T < : <java. io. Serializable) | 
print( " Life is short, you need spark!" ) | 
rocky( " Spark" ) 


/A/ 当 以 下 代码 导致 测试 失败 时 ,编译 时 的 错误 提示 如 下 


. //Error:(15,10) Cannot prove that Int < : < java. io. Serializable. 

. // 对 应 源码 中 注释 @ implicitNotFound ,在 隐 式 未 找到 时 的 msg 提示 信息 

. // 由 此 可 见 ,Scala 的 约束 关系 是 在 编译 期 间 有 效 的 , 即 在 编译 时 会 帮忙 检查 
. // 类 型 是 否 满足 约束 条 件 


//rocky(1) 
| 


是 十 出 类 型 系统 的 概述 


在 Java 里 ,一 直到 JDK1.5 之 前 ， 一 个 对 象 的 类 型 (type) 都 与 它 的 class 是 一 一 映射 
的 ， 通 过 获取 它们 的 class 对 象 ， 比 如 String. class, int. class, obj. getClass( ) 等 ， 就 可 以 判断 
它们 的 类 型 (type) 是 不 是 一 致 的 。 

而 到 了 JDK1.5 之 后 ， 因 为 引入 了 泛 型 的 概念 ， 类 型 系统 变 得 复杂 了 ， 并 且 因 为 JVM 选 


更 泛 的 类 型 ， 


语言 基础 与 开发 实战 


择 了 在 运行 时 采用 类 型 擦拭 的 做 法 (兼容 性 考虑 )， 类 型 已 经 不 能 单纯 用 class 来 区 分 了 ， 
比如 List < String > 和 List < Integer > 的 class 都 是 Class < List > ， 然 而 两 者 的 类 型 (type) 却 
是 不 同 的 。 泛 型 类 型 的 信息 要 通过 反射 的 技巧 来 获取 ， 同 时 Java 里 增加 了 Type 接口 来 表达 


这 样 对 于 List < String > 这 样 由 类 型 构造 器 和 类 型 参数 组 成 的 类 型 ， 可 以 通过 


Type 来 描述 ; EF List < Integer > 类 型 对 应 的 Type 对 象 是 完全 不 同 的 。 


和 Java 的 类 型 系统 相 比 ，Scala 的 类 型 系统 虽然 也 是 静态 类 型 系统 ， 但 由 于 具备 类 型 推 
断 等 ， 在 实际 使 用 上 是 非常 灵活 的 ， 对 应 的 Java 的 静态 类 型 系统 则 不 太 灵 活 ， 使 用 起 来 比 
较 困 难 ; FUR, Scala 带 有 模式 匹配 ， 可 以 非常 灵活 地 恢复 类 型 信息 。 虽 然 Scala 的 类 型 系统 


在 使 用 上 更 加 灵活 ， 而 且 相 比 Java 的 类 型 系统 也 更 加 丰富 (部 分 类 型 信息 可 以 参考 本 书 的 
第 7 章 高 级 类 型 的 内 容 ) 。 同 时 Scala 没有 直接 用 Java 里 的 Type 接口 ， 而 是 自己 提供 了 一 个 
scala. reflect. runtime. universe. Type (2.10 后 ) 。 虽 然 如 此 ， 在 Scala 中 仍然 存在 类 型 擦 除 相 


关 的 问题 。 


Scala 中 提供 了 ClassTag 特质 ， 该 特质 用 于 存储 被 擦 除 的 T 类 型 的 类 信息 ， 极 大 地 方便 
了 在 编译 期 时 对 象 的 实例 化 。ClassTag 相 比 TypeTag 是 比较 弱 的 ，ClassTag 包含 了 TT 运行 时 
的 类 信息 (class) ， 对 应 在 TypeTag 中 则 包含 了 TT 的 所 有 静态 类 型 信息 。 


需要 注意 的 是 ， 类 型 擦 除 通常 用 类 来 翻译 Class, H Type 来 翻译 类 型 信息 。 


类 型 系统 的 操作 示例 D 


下 面 介绍 一 个 使 用 ClassTag 特质 的 示例 。 
【 例 6-7】 ClassTag 类 的 操作 示例 。 
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本 示例 介绍 了 ClassTag 在 类 型 擦 除 中 的 应 用 ， 示 例 代 码 如 下 所 示 : 


class A[T] 


object Manifest_ClassTag | 


def main( args; Array| String | ) | 


// GAPE scala. reflect. ClassTag 所 取代 
def arrayMake| T ; Manifest ] (first :T,second :T) = | 
val r = new Array[ T] (2); r(0) =first; r(1) =second; r 
| 
arrayMake(1 ,2). foreach( println ) 


// 用 于 编译 期 实例 化 Array 对 象 时 ,需要 用 到 被 擦 除 的 类 信息 
def mkArray[ T :ClassTag | (elems:T * ) = Array[ T] (elems:_ * ) 
mkArray (42,13). foreach( println ) 


mkArray(" Japan" ," Brazil" ," Germany" ). foreach( println) 
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18. def manif[ T] (x:List[T] ) (implicit m: Manifest[ T] ) = | 
19. if(m < ; < manifest[ String | ) 

20. println( " List strings" ) 

2il, else > 
DD, println( " Some other type" ) 

23. | 

24. manif( List( " Spark" ," Hadoop" ) ) 

25. manif( List(1,2) ) 

26. manif(List(" Scala" ,3 ) ) 

2 val m = manifest[ A[ String | | 

28. println( m) 

29. val cm = classManifest{ A[ String | | 

30. printIn( cm) 

31. } 

ap, | 


Ss 型 变 Variance 


Scala 型 变 注释 (也 称 变化 型 注释 ) 是 在 定义 类 型 抽象 的 时 候 就 指定 的 ; 而 对 应 的 ,在 
Java 5 中 ， 型 变 注释 则 是 在 客户 端 使 用 类 型 抽象 的 时 候 指 定 的 。 

泛 型 与 子 类 型 化 (subtyping) 带 了 一 些 有 趣 的 问题 ， 如 泛 型 类 、 特 质 的 继承 关系 与 对 应 
的 参数 化 类 型 的 继承 关系 直接 的 变化 关系 。 这 种 变化 关系 存在 3 种 关系 ， 即 协 变 (covari- 
ant), PA (contravariant) 及 不 变 (invariant) ， 这 3 种 关系 称 为 Scala 的 型 变 CHE, 有 些 书 
上 也 称 为 变化 型 ) 。 

(1) 型 变 的 分 类 

假设 当前 存在 类 D 和 B， 其 中 DD 类 为 B 类 的 子 类 ， 对 应 存在 一 个 泛 型 类 A[T] ， 那 么 对 
应 的 3 种 关系 ， 以 及 其 在 Scala 中 的 语法 表示 如 表 6-9 所 示 。 

表 6-9 型 变 的 3 种 情况 


型 变 类 型 语法 说 明 
协 变 AL+T] A[D] 是 A[LB] 的 子 类 ， 即 ALT] 继 承 层次 中 的 父子 关系 与 参数 化 类 型 了 的 父子 关系 一 致 ， 
~ 或 者 说 泛 型 与 它 的 类 型 参数 保持 协 变 (或 有 弹性 的 ) 的 子 类 型 化 
pia AL _T] AL[B] 是 ALD] 的 子 类 ， 即 ALT] 继 承 层次 中 的 父子 关系 与 参数 化 类 型 了 的 父子 关系 相反 ， 
= j 或 者 说 泛 型 与 它 的 类 型 参数 是 逆 变 的 (或 非 协 变 的 、 严 并 的 ) 子 类 型 化 
不 变 A[T] ALB] 和 ALD] 之 间 没 有 父子 继承 关系 GE: 当 且 仅 当 B=:=D 时 ，A[B] 是 ALD] 子 类 ) 


其 中 ， 类 型 参数 前 面 的 + 号 和 - 号 被 称 为 型 变 注意 。 

(2) 型 变 的 位 置 

在 实际 开发 过 程 中 ， 编 译 器 会 帮忙 检查 型 变 的 使 用 是 否 正确 ， 而 对 于 检查 的 规则 如 下 : 
。+T 注 释 : 声明 类 型 T 只 能 用 于 协 变 的 位 置 。 
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。 -了 T 注 释 : 声明 类 型 T 只 能 用 于 逆 变 的 位 置 。 


对 于 不 变 类 型 参数 ， 由 于 没有 类 继承 关系 ， 因 此 限制 了 在 类 抽象 上 的 复 用 。 为 了 尽量 保 
持 复 用 代码 、 使 用 多 态 性 等 特性 ， 实 现 面 向 接口 编程 ， 建 议 采 用 协 变 或 逆 变 的 子 类 型 型 变 
方式 。 

比较 常用 的 型 变 注释 是 协 变 ， 在 Scala 类 库 中 大 量 使 用 了 协 变 注释 ， 比 如 List 集合 类 的 
ES 

通常 在 纯 函 数 式 中 ， 许 多 类 型 都 是 自然 协 变 的 。 即 在 不 存在 可 变数 据 时 ， 通 常 泛 型 与 它 
的 类 型 参数 保持 协 变 (或 有 弹性 的 ) 子 类 型 化 。 

当 用 户 希望 子 类 型 化 是 型 变 注释 〈 复 用 代码 ， 利 用 类 型 抽象 的 动态 绑 定 ) ， 同 时 又 需要 
在 逆 变 的 位 置 使 用 该 类 型 参数 时 ,需要 使 用 一 个 小 技巧 ， 即 通过 一 个 下 界 类 型 界定 的 方法 ， 
可 以 实现 一 个 方法 ,在 该 方法 中 可 以 把 协 变 的 参数 类 型 置 于 逆 变 的 位 置 。 


从 协 变 部 分 的 实例 可 以 看 到 ， 其 中 的 push 方法 的 定义 如 下 : 


1. def push[ B > :Aj(elem:B) :Stack[ B] =new Stack[ B] 
2: 


从 类 型 限定 B > :A 可 以 看 到 ， 传 进去 的 参数 要 么 是 和 A 类 型 一 致 的 ， 要 么 是 A 的 父 类 。 
把 Stack 类 定义 扩展 到 其 他 类 似 设计 的 类 上 ， 基 于 面向 对 象 编程 ， 通 常会 有 一 些 方法 ， 在 这 
些 方法 中 ， 需 要 满足 里 氏 蔡 换 原则 ， 也 就 是 以 具体 子 类 替换 超 类 ， 而 对 应 的 超 类 ， 就 是 这 里 
的 参数 化 类 型 A， 如 果 应 用 时 指定 的 都 是 接口 (或 抽象 类 等 ) ， 那 么 此 时 ， 这 些 方法 就 需要 
传人 这 些 接口 的 具体 子 类 ， 这 样 才能 调用 具体 的 实现 代码 的 方法 。 而 不 能 像 上 面 的 协 变 那 
样 ， 传 人 超 类 。 

在 这 种 情况 下 ， 协 变 就 不 再 适应 了 ， 所 以 在 Scala 中 也 引入 了 逆 变 注释 ， 便 于 以 具体 的 
子 类 来 替换 超 类 ， 以 便 正 确 地 调用 带 有 具体 实现 的 方法 。 


Sos 协 变 与 逆 变 的 操作 示例 


【 例 6-8】 协 变 的 操作 示例 。 
通常 在 讲解 协 变 的 时 候 会 以 Scala 类 库 中 的 类 为 例 ， 这 里 也 一 样 ， 本 示例 为 以 Stack 类 
为 例 ， 参 考官 网 ， 通 过 协 变 时 所 使 用 的 小 技巧 的 代码 进行 分 析 说 明 。 示 例 代码 如 下 所 示 : 


1. class Stack[ +A] | 

2 // 添 加 下 界 类 型 限定 ,使 协 变 参 数 可 以 出 现在 逆 变 的 位 置 

3. // 通 过 下 界 类 型 界定 加 以 限定 ,同时 让 返回 结果 对 应 的 元 素 类 型 为 超 类 
4 def push[ B > :A ] (elem:B) :Stack[ B] = new Stack[ B] | 
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5 override def top:B = elem 

6 override def pop:Stack[ B] = Stack. this 

I override def toString( ) = elem. toString( ) +"" + Stack. this. toString( ) 

o > 
9 def top; A = sys. error("no element on stack" ) 

10. def pop :Stack| A] = sys. error( " no element on stack" ) 

11. override def toString() ="" 


其 中 ， 参 数 化 类 型 为 +A 注释 ， 因 此 只 能 用 于 协 变 的 位 置 ， 而 push 函数 的 参数 化 类 型 
的 对 应 位 置 为 负 ， 因 此 不 能 直接 像 下 面 这 样 使 用 : 


1. def push[ A]... 


为 了 既 能 使 用 协 变 (充分 利用 抽象 系统 ， 即 动态 性 ) ， 又 能 在 负 的 位 置 使 用 该 参数 化 类 
型 ， 可 以 通过 下 界 类 型 界定 加 以 限定 ， 同 时 让 返回 结果 对 应 的 元 素 类 型 为 超 类 。 

【 例 6-9】 Stack 的 操作 示例 。 

本 示例 为 Stack 的 操作 实例 ， 在 讲解 型 变 时 ， 通 常会 引用 Scala 类 库 中 的 集合 类 进行 说 
明 ， 其 中 Stack 也 是 常用 的 集合 类 。 具 体 代码 如 下 所 示 : 


1. objectVariancesTest extends App | 

2. /在 Stack 实例 中 添加 不 同类 型 的 元 素 

BF var s:Stack[ Any | = new Stack( ). push( "hello" ) 
4. s =s. push( new Object( ) ) 

5: s =s. push(7) 

6. println(s) 

Th 


| 


【 例 6-10】 逆 变 的 操作 示例 。 
以 下 代码 是 通过 构建 一 个 具有 继承 层次 的 类 结构 来 分 析 逆 变 的 应 用 实例 的 代码 ， 有 具体 如 


下 所 示 : 


// 这 里 简单 地 构建 一 个 继承 层次 ,包括 Person 及 其 子 类 Student 
trait Person | 

defmakeFriend( p:Person) :Unit 
} 


class Student extends Person | 
defmakeFriend( p : Person ) ; Unit = | 
println( " hello hello" ) 
| 


DE A A a Rare Sk 


11. 


12. 
13. 
14. 
15. 
16. 
17. 
18. 
19. 
20. 
21. 
2D; 
23% 
24. 
25: 
26. 
Die 
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[/ 完 义 了 一 个 逆 变 的 谤 型 ,此 时 FriendMaker[ Student ] 是 FriendMaker[ Person ] 的 超 类 
classFriendMaker[ -T] | 
//T 为 道 变 ,因此 对 应 在 方法 中 的 参数 是 T 类 型 的 具体 子 类 


// 只 有 具体 子 类 才 实 现 了 具体 方法 
// 为 了 调用 makeFriend 方法 ,添加 上 界限 于 
defmakeFriend[ T < :Person | (a:T,b:T) =| 


amakeFriend b 


z 
AN 


object Variance | 
def main( args; Array| String | ) | 
val value :FriendMaker[ Student] = new FriendMaker| Person | 


value. makeFriend( new Student ,new Student) 


结合 Spark 源码 说 明 Scala 类 型 参数 的 使 用 


本 小 节 
详细 解析 这 些 内 容 在 实际 框架 中 的 应 用 实例 。 


结合 Spark 计算 框架 的 源码 ， 分 别针 对 本 章 前 几 节 描述 的 Scala 参数 类 型 内 容 ， 


1. 泛 型 在 Spark 源码 中 的 使 用 
比如 Spark 源码 中 RDD 类 的 定义 ， 代 码 如 下 所 示 : 


ar a SA RA st 2 ap 


eet 
= & 


//4E RDD 中 ,T 类 型 为 参数 化 的 类 型 ,实际 使 用 时 对 应 不 同 的 具体 类 
// 需 要 注意 的 是 ,由 于 Scala 也 采用 了 运行 期 类 型 控 除 的 设计 

// 因 此 当 在 运行 期 需要 知道 具体 类 型 时 

// 定 义 的 参数 化 类 型 T 需 要 添加 ClassTag 的 类 型 说 明 

abstract class RDD[ T. ClassTag | ( 


Hes 


@ transient private var _sc:SparkContext , 
@ transient private vardeps ;Seq| Dependency| _ | | 

) extendsSerializable with Logging | 

if( classOf[ RDD[ _] |. isAssignableFrom( elementClassTag. runtimeClass ) ) | 
//This is a warning instead of an exception in order to avoid breaking user programs that 
//might have defined nestedRDDs without running jobs with them. 

logWarning( " Spark does not support nested RDDs( see SPARK - 5063)" ) 
} 


又 如 Spark 源码 中 RDD 子 类 的 定义 ， 代 码 如 下 所 示 : 


ee oe ne 


6. 
T 
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// 类 型 MapPartitionsRDD 的 参数 化 类 型 U 和 了 T, 可 以 在 类 定义 后 继续 使 用 

/比如 在 参数 中 的 使 用 :RDD[T] 和 Iterator[T] 等 

// 以 及 MapPartitionsRDD 所 继承 的 父 RDD 中 使 用 :extends RDD[U] 

private[ spark | classMapPartitionsRDD [ U ; ClassTag, T: ClassTag | ( prev: RDD[ T] , f: (TaskCon- > 
text, Int, Iterator[ T] ) => Iterator[ U], //(TaskContext, partition index, iterator) preservesParti- 


tioning ; Boolean = false ) 
extends RDD[ U ] (prev) | 
// 下 面 是 参数 化 类 型 T 在 子 类 构造 体内 的 使 用 .firstParent[ T] 


override val partitioner = if( preservesPartitioning ) firstParent| T |. partitioner else None 


2. 类 型 变量 上 、 下 界 界定 在 Spark 源码 中 的 使 用 


a Ar AAT 


3a Ex 


EAT RA het EAE A a 


% x 


// 这 里 ,参数 化 类 型 下 必须 是 InputFormat[ K, V] 的 子 类 
//InputFormat 是 分 布 式 文件 存储 系统 HDFS 输入 文件 的 接口 
// 所 以 具体 的 输入 都 需要 继承 该 接口 
// 这 里 通过 上 界 界定 ,表示 下 类 型 必须 符合 HDFS 要 求 的 接口 
defhadoopFile[ K,V,F < :InputFormat[ K,V ] | 

(path ; String , minPartitions ; Int) 

(implicit km; ClassTag[ K | , vm; ClassTag[ V ] , fm; ClassTag[ F]):RDD[ (K,V) | = with- 
Scope | 

hadoopFile( path, 


| 
下 文 界定 在 Spark 源码 中 的 使 用 


//RDD 类 中 的 源码 


//K :Ordering 表示 存在 一 个 隐 式 值 Ordering[ K] 
// 对 应 ClassTag 的 声明 部 分 , 则 表示 def 方法 定义 中 需要 在 运行 时 识别 K 和 V 类 型 
// 比 如 下 面 的 new 部 分 代码 
implicit def rddToOrderedRDDFunctions[ K :Ordering ; ClassTag, V: ClassTag | (rdd: RDD[ (K, 
v)]) 
: OrderedRDDFunctions| K,V,(K,V) | =} 
newOrderedRDDFunctions[ K,V,(K,V) | (rdd) 
| 
//RDD 的 元 素 类 型 为 了 ,此 处 函数 定义 时 ,指明 了 存在 一 个 Ordering[T] 的 隐 式 值 


/补充 :声明 为 隐 式 的 参数 也 可 以 通过 明确 指定 一 个 具体 的 实例 作为 参数 来 替换 隐 式 值 


def top(num:Int) (implicit ord; Ordering| T] ) :Array[T] = withScope | 


takeOrdered( num) ( ord. reverse ) 
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6.7 小 结 
本 章 详细 分 析 了 Scala 的 类 型 参数 ， 包 括 泛 型 的 概念 ， 以 及 各 种 类 型 的 界定 、 约 束 等 内 
类 型 参数 的 理解 


容 。 最 后 从 Scala 的 类 型 系统 出 发 ， 详 细 分 析 了 Scala 中 的 型 变 内 容 。 在 各 个 概念 的 基础 上 ， 
通过 操作 实例 的 代码 及 其 解析 ， 以 及 这 些 知识 点 在 Spark 源码 中 的 应 用 与 解析 来 加 深 对 Scala 
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Scala 语言 有 着 非常 丰富 的 类 型 系统 ， 在 编写 小 规模 的 Scala 应 用 程序 时 ， 类 型 的 重要 性 
可 能 不 突出 ， 但 当 程序 规模 较 大 时 ， 强 大 的 类 型 系统 能 够 简化 程序 设计 ，Scala 语言 中 的 高 
级 类 型 属于 语法 糖 。 语 法 糖 (Syntactic Sugar) ， 也 叫 糖衣 语法 ， 是 英国 计算 机 科学 家 彼得 . 
约翰 . 兰 达 (Peter J. Landin) 发 明 的 一 个 术语 。 指 的 是 在 计算 机 语言 中 添加 某 种 语法 ， 这 
种 语法 能 使 程序 员 更 方便 地 使 用 语言 开发 程序 ， 同 时 增强 程序 代码 的 可 读 性 ， 避 免 出 错 ; 但 
是 这 种 语法 对 语言 的 功能 并 没有 影响 。 例 如 ， 泛 型 就 是 一 种 语法 糖 ， 即 使 不 用 泛 型 ， 也 能 
发 出 同等 功能 的 程序 ， 例 如 排序 算法 ， 可 以 分 别 实现 Double, Int 等 类 型 的 排序 算法 ,但 是 
在 使 用 泛 型 之 后 ， 可 以 大 大 简化 程序 设计 ， 减 少 重 复 代 码 的 编写 ， 代 码 可 读 性 也 有 所 增加 。 
本 章 重点 介绍 Scala 最 为 常用 的 10 种 高 级 类 型 ， 包 括 单 例 类 型 、 类 型 别名 、 自 身 类 型 、 中 置 
类 型 、 类 型 投影 、 结 构 类 型 、 复 合 类 型 、 存 在 类 型 、 函 数 类 型 及 抽象 类 型 。 


单 例 类 型 


单 例 类 型 概述 


单 例 类 型 (singleton type) 是 所 有 对 象 引用 都 存在 的 一 种 类 型 ， 其 使 用 方式 是 x type, F 
体 如 例 7-1 所 示 。 该 例 利 用 scala. reflect. runtime. universe. type Of 说 明 单 例 类 型 的 特点 与 使 用 。 
【 例 7-1】 单 例 类 型 的 使 用 示例 。 


1 
2 
3 
4. 
5b 
6 
7 
8 
9 


10. 
11. 
12. 


scala > class Person 


defined class Person 


scala > val p = new Person 
p: Person = Person@ 14c4af3 
//typeOf 用 于 判断 类 的 类 型 


scala > import scala. reflect. runtime. universe. typeOf 


import scala. reflect. runtime. universe. typeOf 

//p. type 同 后 面 的 Person 类 一 样 都 是 一 种 类 型 

// 唯 一 不 同 的 是 ,p. type 是 单 类 型 的 , 即 它 的 实例 只 有 一 个 ,就 是 p 
scala > typeOf| p. type | 


res15 ; reflect. runtime. universe. Type = p. type 
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13. 

14. scala > val p2:p. type =p 

15. p2:p. type = Person@ 14c4af3 
16. 

17. scala > typeOf[ Person | 


18. resl7 :reflect. runtime. universe. Type = Person 


fl 7-1 的 第 11 行 代码 、 第 17 行 代 码 的 运行 结果 表明 p. type E] Person 类 一 样 都 是 一 
KAI, | ARR p. type 是 单 例 类 型 ， 它 只 有 一 个 实例 ， 该 实例 就 是 p， 第 14 行 代码 对 此 进 
了 验证 ， 这 意味 着 单 例 类 型 p- type 也 是 Person 类 的 子 类 ， 下 面 的 代码 就 是 证 明 : 


scala > typeOf| p. type | < : < typeOf| Person | 


res20 : Boolean = true 


DM 单 例 类 型 示例 


这 种 单 例 类 型 有 什么 用 呢 ? 最 常用 的 应 用 场景 就 是 方法 的 链 式 调用 ， 先 来 看 一 下 如 果 没 
有 单 例 类 型 会 有 什么 情况 发 生 。 如 例 7-2 所 示 ， 当 不 涉及 继承 时 ， 程 序 代码 在 进行 方法 链 
式 调 用 时 能 够 正常 运行 。 该 例 中 的 Person 类 定义 了 两 个 方法 ， 分 别 是 setName 、setAge 代码 
中 使 用 链 式 调用 行 后 进行 setName 和 setAge 方法 的 调用 。 

【 例 7-2】 无 继承 时 的 方法 链 式 调用 示例 。 


1. class Person} 

2 private var name; String = null 

3 private var age: Int =0 

4 defsetName( name: String) = | 

5. this. name = name 

6 // 返 回 对 象 本 身 ,Scala 类 型 推断 为 Person 
7 this 

S i 

9 defsetAge( age : Int) = | 

10. this. age = age 

11. // 返 回 对 象 本 身 ,Scala 类 型 推断 为 Person 
12. this 

13. | 

14. override def toString() ="name;" +name+" age:" + age 
15. } 

16. 


17. objectSingletonType extends App | 
18. // 链 式 调 用 
19.  println( new Person( ). setAge(27). setName(" 张 三 " ) ) 
20. | 
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代码 执行 结果 如 下 : 
name : 张 三 age:27 


如 结果 所 示 ， 例 7-2 第 19 行 代码 在 执行 setAge 方法 后 ， 返 回 的 是 对 象 本 身 的 引用 ， 其 类 CS) 
型 为 Person， 然 后 继续 调用 对 象 的 setName 方法 ， 执 和 结果 后 ne 最 后 打 
印 时 调用 toString 方法 将 结果 输出 。 但 当 涉 及 继承 时 ， 便 会 产生 问题 ， 如 例 7-3 所 示 。 该 例 是 
存在 继承 关系 时 的 链 式 调用 ， 父 类 Person 中 有 两 个 方法 分 别 是 setName 和 setAge， 子 类 Student 
继承 自 Person， 并 在 类 中 定义 了 setStudentNo 方法 ， 在 使 用 子 类 Student 时 采用 链 式 调 用 。 

【 例 7-3】 带 继承 时 的 方法 链 式 调用 示例 。 


1. class Person | 

2 private var name: String = null 

3 private var age: Int =0 

4 defsetName( name: String) = | 

5. this. name = name 

6 // 返 回 对 象 本 身 ,Scala 类 型 推断 为 Person 
q this 

B 

9 defsetAge( age : Int) = | 

10. this. age = age 

11. 返回 对 象 本 身 ,Scala 类 型 推断 为 Person 
12 this 

sf 

14. override def toString() ="name;" +name+" age:" + age 
15. | 

16. 


17. class Student extends Person | 

18. private varstudentNo ; String = null 

19. /返回 对 象 本 身 Scala 类 型 推断 为 Student 
20. defsetStudentNo( no; String) = | 


21. this. studentNo = no 

22% this 

Mee 4 

24. override def toString( ) = super. toString( ) + "studetNo;" + studentNo 
psy, | 


26. object SingletonType extends App | 

27. ”下面 的 这 条 语句 不 能 运行 ,会 报错 

28. //value setStudentNo is not a member of Person 

29. println( new Student( ). setName(" john" ). setAge(22). setStudentNo( "2014" ) ) 
30. // FT AS Hd HIE AS EF ZT 

31. println( new Student( ). setStudentNo( "2014" ). setName( "john" ). setAge( 22) ) 
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例 7-3 中 的 第 29 行 会 报错 ， 错 误 提 示 为 “value setStudentNo is not a member of Person” , 
这 是 因为 Student 对 象 调用 完 setName 方法 后 已 经 变 成 了 父 类 型 ， 再 调用 setAge 方法 也 不 会 
有 问题 ， 但 当 调用 setStudentNo 方法 时 因为 父 类 中 不 存在 该 方法 ， 因 此 会 报错 。 第 31 行 代码 


之 所 以 能 够 顺利 运行 ， 原 因 在 于 其 先 调用 Sudent 类 中 的 setStudentNo 方法 ， 完 成 后 再 调用 父 
类 Person 中 的 setName, setAge 方法 。 这 就 引出 了 下 面 要 讲 的 问题 ， 在 实际 进行 程序 开发 时 
方法 的 调用 顺序 不 应 该 影响 程序 的 正常 运行 ， 单 例 类 型 可 以 解决 这 一 问题 ， 如 例 7-4 所 示 。 
与 例 7-3 所 不 同 的 是 ， 例 7-4 中 的 setName, setAge 方法 的 返回 值 类 型 为 this. type, t HIE 
返回 结果 的 类 型 为 单 例 类 型 。 

【 例 7-4】 单 例 类 型 实现 的 方法 链 式 调用 示例 。 


class Person | 
private var name; String = null 
private var age; Int =0 
// 返 回 类 型 设置 为 this. type, 返 回 实际 调用 该 方法 对 应 实例 的 单 例 类 型 
defsetName(name:String) :this. type = | 


this. name = name 

this 
| 
// 返 回 类 型 设置 为 this. type, 返 回 实际 调用 该 方法 对 应 实例 的 单 例 类 型 
defsetAge(age:Int) :this. type = | 


this. age = age 
this 
| 
override def toString( ) = "name; 


| 


" +name +" age:" +age 


class Student extends Person | 
private varstudentNo ; String = null 
defsetStudentNo( no; String) = | 
this. studentNo = no 
this 
| 


override def toString( ) = super. toString( ) + " studetNo:" + studentNo 


| 


objectSingletonType extends App| 
/A 下面 两 行 代码 都 能 正常 运行 
println( new Student( ). setName( "john" ). setAge(22). setStudentNo( "2014" ) ) 
println( new Student( ). setStudentNo( "2014" ). setName( "john" ). setAge( 22) ) 


| 


代码 执行 结果 如 下 。 


Scala 高 级 类 型 


name; john age:22 studentNo:2014 
name; john age:22 studentNo:2014 


如 结果 所 示 , 例 7-4 第 5 行 、 第 10 行 的 setName、setAge 方法 与 例 7-4 第 4 行 、 第 9 行 > 
的 setName, setAge 方法 ， 不同 之 处 在 于 方法 最 后 的 返回 值 类 型 为 this. type， 它 返回 的 是 实 “a 
际 调用 该 方法 的 类 型 ， 这 样 例 7-4 中 的 第 28 行 、 第 29 行 代码 都 能 正常 运行 ，Student 对 象 


在 调用 setName, setAge 方法 后 返回 的 实际 类 型 是 Student 类 型 ， 这 样 再 调用 setStudentNo 方 
法 时 便 不 会 编译 出 错 。 


7.2 类 型 别名 
PF 类 型 别名 概述 


类 型 别名 ， 顾 名 思 义 就 是 为 类 型 创建 一 个 别名 ， 甚 目的 是 简化 程序 设计 ， 其 语法 格式 
如 下 : 


type 类 型 别名 = 待 取 别 名 的 类 型 


给 类 型 取 了 别名 后 ， 便 可 以 使 用 该 别名 替代 原 有 类 型 ， 从 而 达到 增加 程序 可 读 性 、 减 少 
代码 量 等 目的 。 


UX 类 型 别名 示例 


例 7-5 是 类 型 别名 使 用 的 实例 。 该 例 使 用 type TeachingCourses = scala. collection. mutable. 
HashMap[ String, String | X scala. collection. mutable. HashMap[ String ,String] 取 了 个 别名 ， 在 代 
码 中 通过 TeachingCourses 简化 程序 设计 。 

【 例 7-$】 类 型 别名 使 用 示例 。 

class Teacher | 


//type 关键 字 定 义 类 型 别名 ,这 样 做 的 好 处 是 在 程序 其 他 地 方 重复 使 用 时 
/不 但 可 以 少 殴 很 多 代码 ,简化 程序 设计 ,也 使 程序 的 可 读 性 增强 


1 

2. 

3 

4. typeTeachingCourses = scala. collection. mutable. HashMap| String, String | 
5 /使 用 类 型 别名 

0 private varteachingCourses = new TeachingCourses 

Fi defaddCourse( courseName : String , courseTime : String) = | 
8 teachingCourses. put( courseName ,courseTime ) 

9 | 

10. defgetCourses( ) = teachingCourses 

TI 
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12. objectTypeAlias extends App | 


13. val t = new Teacher 

14. t. addCourse( " Spark" ," 60 课时 " ) 
15. t. addCourse(" Hadoop" ," 80 课时 " ) 
16. t. addCourse( " Hive" ," 10 课时 " ) 
17. println( t. getCourses( ) ) 

18. } 


代码 执行 结果 如 下 : 
Map( Hadoop -> 80 课时 ,Spark ->60 课时 ,Hive -> 10 课时 ) 


例 7-5 中 的 第 4 行 代 码 演示 了 类 型 别名 的 使 用 ， 其 语法 为 : type 类 型 别名 = 待 取 别名 的 
类 型 一 旦 定义 了 类 型 别名 ， 在 其 作用 域 范围 内 可 以 像 普通 的 类 一 样 被 重复 使 用 ， 第 6 行 代 
码 给 出 了 如 何 利用 类 型 别名 初始 化 类 成 员 变 量 。 从 代码 中 不 难看 出 类 型 别名 TeachingCourses 
可 以 替代 scala. collection. mutable. HashMap[ String, String ] ， 这 样 在 程序 中 如 果 被 多 次 使 用 ， 
可 以 在 简化 程序 代码 的 同时 增强 程序 的 可 读 性 。 


区 自身 类 型 
7.3.1 自身 类 型 概述 


《Programming In Scala) [ 1 ] 给 出 的 自 身 类 型 定义 为 : 任何 混入 该 特质 的 具体 类 必须 确 
保 它 的 类 型 符合 特质 的 自身 类 型 。 这 个 定义 有 点 抽象 ， 这 里 举 一 个 具体 的 例子 来 说 明 ， 
如 例 7-6 所 示 。 

【 例 7-6】 自 身 类 型 定义 。 


trait X | 


| 

class B| 
//self:X => BOK B 在 实例 化 时 或 定义 B 的 子 类 时 
// 必 须 混入 指定 的 X 类 型 ,这 个 X 类 型 也 可 以 指定 为 当前 类 型 
self.X => 

| 


自身 类 型 的 存在 相当 于 让 当前 类 变 得 更 加 抽象 ， 例 7-6 中 定义 了 一 个 特质 X,， 类 B 中 
通过 self:x=> 引 入 了 自身 类 型 ， 如 此 在 扩展 类 B 时 ， 其 子 类 必须 混入 特质 X， 要 求 当 前 对 
象 也 符合 X 类 型 。 
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7. 3.2 自身 类 型 示例 


例 7-7 给 出 了 自身 类 型 使 用 示例 。 该 例 代码 在 类 B 中 加 入 self:X => ， 以 进行 自身 类 型 > 
的 定义 。 
【 例 7-7】 自 身 类 型 使 用 示例 。 


l. trait X| 

2 deffoo( ) 
ko f 

4. class B} 

5. self: X => 

@ i 

7. /类 C 扩 展 B 的 时 候 必 须 混 入 trait X 
8. /和 否则 的 话 会 报错 

9. class C extends B with X| 

10. deffoo( ) = println( " self type demo" ) 
11. | 

12. objectSelfTypeDemo extends App| 

13. new C( ). foo 

14. | 


例 7-7 中 第 9 行 代码 演示 了 自身 类 型 的 使 用 ,类 C 扩展 类 B 时 必须 混入 特质 X， 否 则 
会 报错 。 之 所 以 说 自身 类 型 让 当前 类 变 得 更 加 抽象 ， 是 因为 子 类 在 扩展 父 类 时 ， 如 果 父 类 中 
存在 自身 类 型 ， 则 子 类 必须 混入 自身 类 型 对 应 的 类 。 


7.4 中 置 类 型 
TO) 中 置 类 型 概述 


Scala 语言 中 存在 着 中 置 操 作 符 (如 + 、* 等 )， 在 执行 1 *2、1 +2 等 操作 时 ， 其 后 面 
的 结果 是 通过 方法 调用 实现 的 ， 即 通过 1. + (2)、1. + (2) 实 现 。 类 似 地 ， 当 某 个 类 的 构造 
器 参数 有 且 仅 有 两 个 时 ， 它 可 以 用 中 置 类 型 (Infix Type) 表示 ， 其 话 法 定义 如 下 : 


类 型 1 实际 类 类 型 2 


CA 中 置 类 型 示例 


中 置 类 型 在 实际 应 用 中 有 两 种 应 用 场景 ， 分 别 是 变量 定义 和 模式 匹配 。 例 7-8 给 出 的 
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是 中 置 类 型 在 变量 定义 中 的 应 用 。 
【 例 7-8】 中 置 类 型 示例 。 


1. class Person[T,S](val name;S, val age:T) 

2. object InfixType extends App | 

3 ] 下 面 的 代码 是 一 种 中 置 表达 方法 ,相当 于 
4. //val p:Person| String, Int | = null 
5 

6 


val p:String Person Int = null 


| 


例 7-8 第 1 行 代 码 给 出 了 Person 类 的 定义 ， 该 类 具有 两 个 类 型 参数 : T 和 S， 对 应 name 
和 age 成 员 。 因 为 只 有 两 个 参数 ， 在 对 变量 进行 赋值 时 可 以 采用 中 置 表示 法 ， 即 第 4 行 、 第 
5 行 代码 是 等 价 的 ， 只 不 过 是 表达 形式 不 一 样 而 已 。 

除 变 量 初始 化 时 可 以 使 用 中 置 表示 法 之 外 ， 在 模式 匹配 时 也 可 以 使 用 中 置 表达 法 ,代码 
如 例 7-9 所 示 。 该 例 使 用 val p:String Person Int = Person(" 张 三 " ,18) 进 行 类 型 定义 ,使 用 
case " 张 三 " Person 19 = > println ( "matching is ok") 及 case name Person age = > println 
("name:" +name + "age =" +age) 将 中 置 类 型 应 用 于 模式 匹配 。 

【 例 7-9】 中 置 类 型 在 模式 匹配 中 的 使 用 示例 。 


1. // 定 义 Person 类 ,两 个 泛 型 参数 ,分 别 是 $,T, 因 此 
2. // 它 是 可 以 用 中 置 表达 式 进行 变量 定义 的 
3. case class Person[S,T] (val name:S,val age:T) 
4. 
5. objectInfixType extends App | 
6. ] 下 面 的 代码 是 一 种 中 置 表达 方法 ,相当 于 
hs //val p:Person[ String ,Int] = Person(" 张 三 " ,18) 
8. val p;String Person Int = Person ( " 7K =" ,18) 
9. 
10. /中 置 表达 式 的 模式 匹配 用 法 
11. /模式 匹配 时 可 以 直接 用 常量 ,也 可 以 直接 用 变量 
12. p match | 
13. case "3K =" Person 19 => println(" matching is ok" ) 
14. case name Person age => printIn("name;" +name+" age =" +age) 
15. | 
16. } 
代码 执行 结果 如 下 : 


matching is ok 


例 7-9 中 的 第 7 ~8 行 代码 演示 了 中 置 类 型 在 变量 定义 时 的 使 用 ,第 12 ~ 14 行 演示 了 中 
置 类 型 如 何 应 用 到 模式 匹配 当中 ， 可 以 看 到 中 置 类 型 的 模式 匹配 的 使 用 方式 同 变量 赋值 类 
似 。 中 置 类 型 的 使 用 更 符合 人 的 思维 习惯 ， 但 它 只 能 在 参数 只 有 两 个 的 情况 下 使 用 。 
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a 
类 型 投影 概述 


Scala 中 存在 内 部 类 ， 内 部 类 与 外 部 类 的 成 员 变量 、 成 员 方法 并 没有 太 大 的 区 别 ， 唯 一 
的 区 别 在 于 它 是 一 个 类 ， 在 使 用 内 部 类 时 需要 注意 的 问题 ， 是 两 个 不 同 外 部 类 的 实例 对 应 的 
内 部 类 是 不 同 的 类 。 类 型 投影 (Type Project) 的 目的 就 是 解决 这 一 问题 。 


2AC 类 型 投影 实例 


为 说 明 类 型 投影 的 作用 ， 先 看 一 个 Scala 内 部 类 的 使 用 示例 。 该 例 演 示 的 是 Scala 内 
部 类 的 使 用 ， 在 外 部 类 Outter 中 定义 内 部 类 Inner， 然 后 通过 val outterl = new Outter, val 
inner = new outterl. Inner 进行 内 部 类 的 使 用 。 

【 例 7-10】 Scala 内 部 类 示例 。 


1. classOutter | 
2 var x: Int =0 

3 // 内 部 类 Inner 

4 class Inner| 

Jo def test( ) =x 

6 | 

o l 

8. objectTypeProject extends App | 

9 valoutterl = new Outter 

10. valoutter2 = new Outter 

11. /创建 内 部 类 的 方式 , 同 访问 正常 的 成 员 变量 一 样 


12. val inner = newoutterl. Inner 


13. println( inner. test( ) ) 
14. } 


i) 7-10 演示 了 Scala Speeds 从 第 12 行 代 码 可 以 看 到 ，Scala 访问 内 部 类 的 方式 
同 外 部 类 的 其 他 类 成 员 一 样 ， 只 不 过 它 是 一 个 内 部 类 。 众 所 周知 ， 实 例 化 后 的 不 同 外 部 类 对 
象 的 成 员 变 量 是 不 一 样 的 ， 他 就 是 说 outterl. x 与 outter2. x 是 两 个 不 同 的 成 员 变 量 ， 其 物理 
存储 地 址 不 同 。 类 似 地 ， 不 同 Outter 类 的 实例 对 应 的 内 部 类 也 是 不 一 样 的 ， 下 面 的 代码 就 是 
证 明 。 该 例 的 外 部 类 中 定义 了 def print(i:Inner) =i 方 法 ， 该 方法 只 能 接受 同一 外 部 类 对 象 
引用 所 创建 的 内 部 类 对 象 作为 参数 ， 而 不 能 接受 不 同 外 部 类 对 象 创建 的 内 部 类 对 象 作为 
参数 。 

【 例 7-11】 不同 Outter 类 的 实例 对 应 的 内 部 类 说 明示 例 。 


语言 基础 与 开发 实战 


1. import scala. reflect. runtime. universe. typeOf 

2.  classOutter | 

3. private var x:Int =0 

4. def print(i; Inner) =i 

5 class Inner} 

6. def test( ) =x 

Is } 

BB 

9. objectTypeProject extends App| 

10. valoutterl = new Outter 

11. val innerl = newoutterl. Inner 

12. 

13. valoutter2 = new Outter 

14. val inner2 = newoutter2. Inner 

15. 

16. 下面 的 代码 编译 会 失败 

lie // outterl. print (inner2 ) 

18. ”人 这 是 因为 不 同 outter 对 象 对 应 的 内 部 类 成 员 类 型 是 不 一 样 的 
19. ”// 这 就 跟 两 个 类 成 员 的 实例 它们 内 存 地 址 不 一 样 类 似 
20. 

21. 下面 的 类 型 判断 会 输出 false 

22.0 /这 也 进一步 说 明了 它们 类 型 是 不 一 样 的 

2, println( typeOf[ outter Inner | == typeOf| outter2. Inner | ) 
2A 


例 7-11 第 10 行 、 第 11 行 代码 创建 了 一 个 外 部 类 的 对 象 及 对 应 的 内 部 类 对 象 ， 第 13 
行 、 第 14 行 代码 创建 了 另外 一 个 外 部 类 对 象 及 对 应 的 内 部 类 对 象 ， 第 17 行 代码 编译 会 出 
错 ， 这 是 因为 outter. Inner 类 与 outter2. Inner 类 是 不 同 的 类 ， 第 23 行 代码 说 明了 这 一 点 。 具 
体 来 讲 ， Outter 类 中 def print(i:Inner) =i 成 员 方法 中 的 参数 类 型 Inner 其 实 相 当 于 def print 
(i:this. Inner) =i 或 def print(i:Outter this. Inner) =i， 它 依赖 于 外 部 类 ， 构 成 了 一 条 路 径 ， 
因为 也 称 为 路 径 依 赖 类 型 。 

类 型 投影 的 目的 是 将 外 部 类 Outter 中 定义 的 方法 def 
print(i;Inner) =i， 它 可 以 接受 做 任意 外 部 类 对 象 中 的 In- 
ner 类 ， 也 就 是 使 例 7-11 中 outter 与 outter2 中 的 Inner 类 
型 具有 共同 的 父 类 ， 具 体 实现 方式 是 将 def print (i; Inner) 
=i 改写 为 def print(i:Outter#Inner) =i, Outter#Inner PRA 
类 型 投影 ， 其 原理 如 图 7-1 所 示 ， 完 整 代 码 如 例 7-12 所 
示 。 该 例 通 过 类 型 投影 即将 def print(i:Inner) =i 方法 改 
为 def print(i;Outter#Inner) =i 解决 例 7-1 中 的 问题 。 图 7-1 类 型 投影 说 明 

【 例 7-12】 类 型 投影 使 用 示例 。 


| 
—=— | 
< VR 


outter 1.Inner outter 2. Inner 


7a Scala SRRA 


1. import scala. reflect. runtime. universe. typeOf 

2.  classOutter | 

3 private var x:Int =0 E 

4 private var i:Inner = newOutter. this. Inner ©) 

3 //Outter#Inner 类 型 投影 的 写法 

6 // 可 以 接受 任何 outter 对 象 中 的 Inner 类 型 对 象 

7 def print(i:Outter#Inner) =i 

8 class Inner} 

9 


def test( ) =x 


11. |} 

12. 

13. objectTypeProject extends App | 
14. valoutterl = new Outter 

15. val innerl = newoutterl. Inner 
16. 

17. valoutter2 = new Outter 

18. val inner2 = newoutter2. Inner 


19. /定义 了 类 型 投影 后 ,下 面 的 这 个 语句 可 以 成 功 执行 

20. outterl. print( inner? ) 

21. /注意 ,下 面 的 这 条 语句 返回 的 仍然 是 false 

2 // 只 是 对 print 方法 中 的 参数 进行 类 型 投影 ,并 没有 改变 outter. Inner 与 outter2. Inner 
23. /是 不 同类 的 事实 

24. println( typeOf[ outterl. Inner | == typeOf| outter2. Inner | ) 

De 


例 7-12 第 7 行 代码 说 明了 类 型 投影 的 实现 方式 ， 第 20 行 代码 说 明了 类 型 投影 的 作用 ， 


通过 类 型 投影 ，print 方法 可 以 接受 任意 outter 实例 的 Inner 类 对 象 ， 但 需要 注意 是 代码 第 24 
行 输出 的 结果 仍然 是 false， 这 是 因为 类 型 投影 并 没有 改变 outter Inner 类 与 outter2. Inner 类 


是 不 同类 的 事实 ， 它 只 是 改变 了 print 方法 的 行为 。 


TO 结构 类 型 


结构 类 型 概述 D 


结构 类 型 (Struture Type) 通过 利用 反射 机 制 为 静态 语言 添加 动态 特性 ， 从 而 使 得 参数 
类 型 不 受 限 于 某 个 已 命名 的 类 型 。 结 构 体 类 型 通过 花 括 号 | | 进行 定义 ， 花 括号 中 给 出 方 
法 标签 (抽象 方法 )， 在 使 用 时 给 出 具体 实现 。 


语言 基础 与 开发 实战 


结构 类 型 示例 


例 7-13 给 出 了 结构 体 类 型 使 用 示例 。 该 例 使 用 res: | def close( ) ; Unit } 结构 体 类 型 作为 
releaseMemory 方法 的 参数 。 
【 例 7-13】 结构 体 类 型 示例 。 


objectStructureType | 
//releaseMemory 中 的 方法 参数 是 一 个 结构 体 类 型 
// 它 定义 了 一 个 抽象 方法 ,对 close 方法 的 规格 进行 了 说 明 


defreleaseMemory ( res: | 


1 
2 
3 
4 
5, def close( ) : Unit 
6 
7 
8 
9 


// 结 构 体 类 型 中 的 方法 不 能 有 具体 实现 
//defcloseAll( ) :Unit = | println( " close all" ) } 
Di 


res. close( ) 


10. } 


12. def main( args; Array| String | ) : Unit = | 

13. /结构 体 使 用 方式 

14. releaseMemory( new | def close( ) = println( " Memory Releaseed" ) | ) 
15. | 

16. | 


代码 执行 结 
Memory Released 


例 7-13 第 4 ~ 10 行 代码 定义 了 一 个 方法 releaseMemory， 该 方法 的 参数 是 一 个 结构 体 
类 型 。 


def close( ) : Unit 

// 结 构 体 类 型 中 的 方法 不 能 有 具体 实现 

//defcloseAll( ) :Unit = | println( " close all" ) } 
| 


第 14 行 代码 给 出 了 结构 体 类 型 的 使 用 ， 通 过 new 关键 字 ， 然 后 用 大 括号 给 出 结构 体 类 
型 中 定义 的 抽象 方法 的 具体 实现 。 

结构 体 类 型 还 可 以 用 type 关键 字 进 行 声明 ， 例 7-14 给 出 了 其 使 用 示例 。 该 例 使 用 type 
关键 字 进 行 结 构 体 类 型 声明 ， 它 适用 于 结构 体 类 型 存在 重用 的 情况 ， 以 简化 程序 设计 。 

【 例 7-14】type 关键 字 声 明 的 结构 体 类 型 示例 。 


例 7-14 第 6 行 代 码 通过 type 关键 字 对 结构 体 类 型 进行 声明 ， 如 果 把 结构 体 类 型 看 作 是 


EWA Scala 高 级 类 型 


objectStructureType | 
defreleaseMemory( res; | def close( ) : Unit} ) | 
res. close( ) 
| © 
// 采 用 关键 字 进 行 结 构 体 类 型 声明 
type X = | def close( ) ; Unit} 
// 结 构 体 类 型 X 作为 类 型 参数 ,定义 函数 releaseMemory2 
defreleaseMemory2( x:X) =x. close( ) 


def main( args: Array[ String ] ) :Unit = | 
releaseMemory( new | def close( ) = println( "closed" ) } ) 
// PK BE FA E] releaseMemory 
releaseMemory2 (new | def close( ) = println( " closed" ) } ) 
} 
} 


一 个 类 的 话 (实际 上 结构 体 类 型 与 类 之 间 没 有 太 大 差别 ， 这 点 在 后 面 会 讲 ) ， 可 以 看 作 是 为 
结构 体 类 型 取 了 一 个 别名 ,代码 第 8 行 给 出 了 其 使 用 方法 ， 在 定义 releaseMemory2 方法 时 ， 


直接 使 用 X， 


FAR | def close( ) : Unit} ， 这 样 做 的 好 处 是 当 结 构 体 类 型 较 复杂 且 在 程序 中 多 次 


使 用 时 ， 可 以 使 代码 更 简洁 易 读 。 
从 前 面 的 结构 体 类 型 使 用 示例 来 看 ， 如 例 7-14 中 的 第 11、12 行 ， 通 过 new 的 方式 对 结 
构 体 类 型 中 的 抽象 方法 进行 实现 ， 这 有 点 像 创 建 匿名 类 ， 其 实 releaseMemory 方法 不 仅 可 以 


通过 第 11 行 、 第 12 行 代码 的 方式 传 参 ， 它 还 可 以 接受 类 的 实例 或 单 例 对 象 作 为 参数 ， 只 要 


该 类 或 单 例 对 象 中 的 方法 标签 与 结构 体 类 型 中 声明 的 方法 一 致 ， 具体 代码 如 例 7-15 所 示 。 
该 例 通过 将 普通 类 对 象 Ple 和 单 对 象 File 作为 带 结构 体 类 型 的 函数 参数 ， 演 示 结 构 体 类 型 与 
普通 类 、 单 例 对 象 之 间 的 联系 与 区 别 。 

【 例 7-15】 普 通 类 对 象 或 单 例 对 象 作为 结构 体 类 型 参数 使 用 示例 。 


ROE A a aby ee I 


三 


h3 


// 定 义 一 个 普通 的 scala 类 ,其 中 包含 close 成 员 方法 
class File| 

def close( ) :Unit = println( " File Closed" ) 
} 
// 定 义 一 个 单 例 对 象 ,其 中 也 包含 close 成 员 方法 
object File f 

def close( ) :Unit = println( " object File closed" ) 
} 
objectStructureType | 

defreleaseMemory ( res; | def close( ) : Unit} ) | 

res. close( ) 


语言 基础 与 开发 实战 


13. } 
14. 
15. def main( args; Array[ String | ) :Unit = | 
16. releaseMemory( new {def close( ) = println( " closed" ) } ) 
17. 
18. // 对 于 普通 的 scala 类 ,直接 创建 对 象 传 人 即 可 使 用 前 述 的 方法 
19. releaseMemory(new File( ) ) 
20. // Xt FPA, PAG APE oT AR BM BY 
21. releaseMemory ( File) 
D 
23. } 
代码 执行 结 
closed 


File Closed 
object File closed 


通过 例 7-15 第 19 行 、 第 21 行 代码 可 以 看 出 ， 虽 然 releaseMemory 方法 中 的 参数 是 
一 个 结构 体 类 型 ， 但 也 可 以 传人 普通 类 对 象 和 单 例 对 象 ， 只 要 该 对 象 或 类 中 具有 结构 
体 类 型 中 声明 的 方法 即 可 。 这 说 明 结 构 体 类 型 可 以 看 作 是 类 ， 只 是 表现 形式 与 类 有 所 
区 别 而 已 。 


复合 类 型 


7.7.1 复合 类 型 概述 


复合 类 型 其 实 很 简单 ， 指 的 是 形 如 A with Cloneable 的 类 型 ， 将 整体 看 作 一 种 类 型 ， 这 
` y PAS 
A 


7.7.2) 复合 类 型 示例 


例 7-16 给 出 了 复合 类 型 的 使 用 示例 。 该 例 通过 type X =A with Cloneable 声明 复合 类 型 ， 
并 将 该 复合 类 型 作为 函数 def test(x:X) = println(" test ok" ) 的 参数 。 
【 例 7-16】 复合 类 型 使 用 示例 。 


1. class A 
2. class B extends A with Cloneable 


Scala 高 级 类 型 
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4. objectCompoundType | 

5 // 利 用 关键 字 type 声明 一 个 复合 类 型 
6. type X =A with Cloneable 

7 def test(x:X) = println(" test ok" ) 

8 def main( args: Array[ String] ) ; Unit = | 
9 test( new B) 


代码 执行 结果 如 下 : 


test ok 


例 7-16 第 2 行 代码 定义 了 一 类 B ， 该 类 扩展 类 A 并 混入 了 Cloneable 接口 ， 从 复合 类 
型 的 角度 来 看 ，B 是 复合 类 型 A with Cloneable 的 子 类 。 第 6 行 代码 使 用 type 关键 字 声 明 
了 一 个 复合 类 型 X， 第 7 行 代码 定义 了 test 方 法， 该 方法 接受 的 参数 类 型 为 复合 类 型 X， 
第 9 行 代码 传 入 的 对 象 类 型 为 B， 因 为 B 是 复合 类 型 A with Cloneable 的 子 类 ， 从 而 它 是 
合法 的 。 


US 存在 类 型 概述 


Java 泛 型 中 有 通配符 类 型 ， 例 如 ArrayList <? extends Serializable > ， 意 思 是 ArrayList 的 
泛 型 参数 为 所 有 实现 了 Serializable 的 类 及 子 类 。Scala 语言 提供 了 类 似 的 语法 ， 在 Scala 语言 
中 被 称 之 为 存在 类 型 (Existential Types)。 其 语法 格式 为 C[T] forSome | type T}, C 表示 泛 
型 类 ， 例 如 ArrayList[T] for Some | type T} 表示 Array 的 泛 型 参数 可 以 是 任何 类 型 ， 存 在 类 型 
也 可 以 进行 语法 简化 ，ArrayList[T] for Some {type T} 简化 后 的 写法 为 Array[_] ， 这 种 通 配 
符 也 可 以 像 Java 语言 中 的 通配符 类 型 一 样 使 用 ，ArrayList < ? extends Serializable > 用 Scala 语 
言 实现 的 话 其 代码 为 ArrayList[ _ < :Serializable ] 。 


CSD 存在 类 型 示例 


在 看 一 些 scala 语言 实现 的 框架 或 别人 写 的 程序 时 ， 常 常会 发 现下 列 形式 定义 的 变量 或 
方法 参数 ， 如 例 7-17 所 示 。 该 例 演示 的 是 Array[ T] forSome {type Ti 未 简化 的 存在 类 型 及 
简化 后 的 存在 类 型 Array[ ] 的 使 用 。 


语言 基础 与 开发 实战 


【 例 7-17】 存 在 类 型 使 用 示例 1。 


1 
2 
3. 
4. 
5 
6 
7 


objectExisitType extends App | 


| 


// 下 面 的 Array[ _] 是 一 种 存在 类 型 ,虽然 用 的 是 类 型 通配符 
// 但 它 本 质 上 等 同 于 
//def print2(x;Array[ T |forSome {type T} ) = println(x) 

// 即 Array[ _] 中 的 类 型 通 匹 符 也 是 一 种 语法 糖 ,用 于 简化 设计 
def print(x: Array[ _] ) =println(x) 


例 7-17 第 6 行 代码 中 的 print 方法 参数 Array[ _] 其 实 是 一 种 存在 类 型 ，def print(x:Array 
[_]) =printmn(x) 等 同 于 def print2(x:Array[T] forSome {type T} ) =println (x), FRA) 7-18 
所 示 的 代码 。 该 例 是 多 个 存在 类 型 参数 的 使 用 及 其 简化 写法 的 使 用 。 

【 例 7-18】 存 在 类 型 使 用 示例 2。 


1. objectExisitType extends App| 
2 
3 def print(x;Array[ _]) =for(i< —x) Console. print(i+"" ) 
4 
5. def print2(x;Array[ T|forSome | type T} ) =for(i < —x) Console. print(i+"" ) 
6 
7 //Map[_,_] 相 当 于 Map[T,U] forSome {type T;type U} 
8 def print3(x:Map[_,_ |) = println( x) 
9 
10. print( Array(" Hadoop" ," Hive" ) ) 
11. Console. println( ) 
12. print2 ( Array(" Hive" ," Spark" ) ) 
13. Console. println( ) 
14. print3 ( Map( " Spark" -> "1.5. 1") ) 
15. | 
代码 执行 结果 如 下 : 


Hadoop Hive 
Hive Spark 
Map( Spark -> 1. 5. 1) 


结果 可 见 ， 代 码 能 够 正常 输出 数组 内 容 。 例 7-18 第 8 行 代码 给 出 了 Map 存在 类 型 的 使 
用 方式 ，Map[ _,_] 等 同 于 Map[T,U] forSome |type T;type U} 。 
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函数 类 型 


Po) KAKER 


Scala 语言 中 函数 也 是 有 类 型 的 ， 也 数 类 型 的 语法 格式 为 (Tl1,T2,…,TN) =>R, N AY 
最 大 值 为 22， 即 定义 的 函数 输入 参数 最 多 为 22 个 ，R 为 函数 的 返回 值 类 型 。 限 制 输入 参 
数 最 多 为 22 个 其 背后 的 原因 是 如 果 函 数 输入 参数 数量 超过 22 个 ， 很 有 可 能 是 代码 设计 有 


问题 。 


ny 


© 


7.9.2 函数 类 型 示例 


函数 类 型 使 用 示例 见 例 7-19 所 示 。 该 例 通 过 val max2 = new Function2[ Int, Int, Int] | def 
apply(x: Int, y: Int); Int=if (x<y) yelsexil 创 建 函 数 及 通过 val max = (x: Int, y; Int) => if 
(x<y)y else x 创建 函数 之 间 的 联系 ， 以 说 明 函 数 类 型 的 使 用 。 

【 例 7-19】 函数 类 型 使 用 示例 。 


//max 与 anonfun2 是 等 价 的 ,它们 定义 的 都 是 输入 参数 ,是 两 个 Int 类 型 
// 返 回 值 也 是 Int 类 型 的 函数 

scala > val max = (x: Int,y: Int) =>if (x< y) y else x 

max: (Int,Int) => Int =< function2 > 

// 通 过 Funtion2 定义 一 个 输入 参数 为 整 型 

// 返 回 类 型 为 Int 的 函数 ,这 里 通过 new 创建 函数 

// 而 这 个 类 正 是 Function2, 它 是 函数 类 型 类 

scala > val max2 = new Function2| Int,Int,Int] | 


O OE No nr re 


def apply(x: Int,y: Int); Int =if (x< y) y else x 


| 
11. max2: (Int, Int) => Int =<function2 > 


= 
三 


13. scala > printIn( max(0,1) == max2(0,1)) 
14. true 


例 7-19 第 3 行 代码 定义 了 一 个 函数 ， 函 数 类 型 是 (Int,Int) => Int， 其 输入 参数 是 整 型 ， 
返回 值 也 是 整 型 ， 它 实际 上 是 函数 类 型 Function2 的 子 类 ， 第 8 行 代码 通过 Function2 类 直接 
new 一 个 对 象 max2 ， 从 第 11 行 代码 的 返回 结果 来 看 ，max2 也 是 一 个 函数 ， 函 数 类 型 也 是 
(Int,Int) => Int， 这 与 max 函数 是 一 样 的 。 很 明显 ，Scala 中 的 函数 也 是 有 类 型 的 。 
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抽象 类 型 
Co 抽象 类 型 概述 


抽象 类 型 是 指 在 类 或 特质 中 利用 type 关键 字 定 义 一 个 没有 确定 类 型 的 标识 ,该 标识 的 
具体 类 型 在 子 类 中 被 确定 ， 称 这 种 类 型 为 抽象 类 型 。 


CU 抽象 类 型 实例 


抽象 类 型 的 使 用 示例 见 例 7-20。 该 例 在 Person 类 中 使 用 type IdentityType 声明 抽象 类 
型 ， 然 后 分 别 在 子 类 Student, Teacher 中 使 用 type IdentityType = String, type IdentityType = Int 
对 抽象 类 型 进行 具体 化 ， 以 说 明 抽象 类 型 的 使 用 。 

【 例 7-20】 抽象 类 型 使 用 示例 。 


1. abstract class Person | 

2 // type 关键 字 声 明了 一 个 抽象 类 型 IndentityType 
3 typeldentityType 

4 // 方 法 的 返回 值 类 型 被 声明 为 抽象 类 型 

5. defgetIdentityNo( ) :IdentityType 

6. | 

7. /在 子 类 中 ,对 抽象 类 型 进行 具体 化 

8. class Student extends Person | 

9. /将 抽象 类 型 具体 化 为 Suing 类 型 

10. typeldentityType = String 

11. defgetIdentityNo( ) = "123" 

sat 

13. class Teacher extends Person} 

14.0 /将 抽象 类 型 具体 化 为 Int 类 型 

15. typeldentityType = Int 

16. defgetIdentityNo( ) = 123 

Ws | 

18. objectAbstractType | 

19. def main( args; Array[ String] ): Unit = | 


20. // 返 回 的 是 String 类 型 

21. println( new Student( ). getIdentityNo( ) ) 
22. | 

ey. 


例 7-20 第 3 行 代码 使 用 type 关键 字 定 义 了 一 个 抽象 类 型 IdentityType， 第 4 行 代码 定义 
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了 一 个 方法 def getldentityNo( ) :IdentityType， 方 法 的 返回 类 型 为 抽象 类 型 IdentityType， 然 后 
根据 子 类 的 需要 对 抽象 类 型 进行 具体 化 ， 本 例 中 Student 子 类 将 抽象 类 型 IdentityType 具体 化 
为 String 类 型 (代码 第 10 行 ) Teacher 子 类 将 抽象 类 型 具体 化 为 Int 类 型 (代码 第 15 17), 


在 实际 使 用 时 返回 的 是 对 应 具体 化 后 的 类 型 (代码 第 21 行 ) 。 抽 象 类 型 可 以 用 泛 型 来 进行 > 


替代 实现 ， 如 例 7-21 所 示 。 
【 例 7-21】 泛 型 蔡 代 抽象 类 型 使 用 示例 。 


1. /使 用 范 型 参数 将 方法 的 返回 值 定 义 为 抽象 类 型 
2. abstract class Person[ T] | 

3 defgetIdentityNo( ) :T 

人 

5. / 子 类 带 具 体 的 类 型 String 
6 

7 

8 

9 


class Student extends Person| String | | 
defgetIdentityNo() : String = "123" 

} 

// 子 类 带 具 体 的 类 型 mt 


10. class Teacher extends Person|{ Int | | 


11. defgetIdentityNo( ) :Int = 123 

ph 

13.  objectAbstractType | 

14. def main( args; Array| String] ) : Unit = | 
15. /同样 返回 String 类 型 

16. println( new Student( ). getldentity No( ) ) 
be i 

18. } 


例 7-21 演示 了 如 何 利 用 泛 型 来 替代 抽象 类 型 实现 子 类 类 型 的 具体 化 。 在 实际 应 用 中 可 
以 根据 具体 情况 来 决定 是 使 用 泛 型 还 是 抽象 类 型 ， 例 如 经 常 需要 用 到 new Person[ String, Int ] 
(“nyz”,18) 这 种 创建 对 象 的 方式 ,使 用 泛 型 更 为 方便 ， 如 果 类 型 是 在 子 类 型 中 才 被 确定 ， 
则 推荐 使 用 抽象 类 型 。 


Spark 源码 中 的 高 级 类 型 使 用 


1. 单 例 类 型 

下 面 的 代码 来 源 于 org. apache. spark. rdd. RDD. scala， 弹 性 分 布 式 数 据 集 (Resilient Dis- 
tributed Dataset，RDD) 是 Spark 的 基石 ， 它 是 一 种 高 度 受 限 的 内 存 共享 模型 ， 用 于 对 分 布 式 
内 存 进行 抽象 。RDD 类 中 提供 了 一 个 persist 方法 ， 用 于 将 RDD 进行 持久 化 到 内 存 ， 以 备 后 
续 重 用 ， 加 速 代码 的 执行 。Persist 方法 代码 如 下 : 


//persist 方法 使 用 了 单 例 类 型 ,方法 的 返回 值 为 this. type ,如 此 不 同类 型 的 RDD 调用 该 方法 后 
// 返 回 的 就 是 调用 该 方法 的 RDD 
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def persist( newLevel: StorageLevel) : this. type = | 
// TODO; Handle changes ofStorageLevel 
if (storageLevel != StorageLevel. NONE && newLevel!=storageLevel) | 


throw new UnsupportedOperationException( 
"Cannot change storage level of an RDD after it was already assigned a level" ) 
| 
sc. persistRDD(this ) 
// Register the RDD with theContextCleaner for automatic GC — based cleanup 
sc. cleaner. foreach( _. registerRDDForCleanup (this ) ) 
storageLevel = newLevel 


this 


2. 存在 类 型 

下 面 的 代码 来 源 于 org. apache. spark. graphx. EdgeRDD. scala, EdgeRDD 是 一 个 抽象 类 ， 
它 扩 展 自 RDD[Edge[ED] ] ， 对 各 个 partition 以 列 的 格式 存储 图 的 边 ， 同 时 还 会 存储 与 边关 
联 的 顶点 信息 。 


abstract classEdgeRDD[ ED ] ( 
@ transient sc ;SparkContext , 
@ transientdeps: Seq[ Dependency[ _] |) extends RDD[ Edge[ ED] | (sc,deps) | 
// 存 在 类 型 的 使 用 ,VD 
private| graphx | defpartitionsRDD: RDD [ (PartitionID , EdgePartition[ ED, VD ] ) ] forSome | type 
VD } 


SS 
S 
I 


他 成 员 方法 ……: 


3. 类 型 别名 
下 面 的 代码 来 源 于 org. apache. spark. shuffle. ShuffleBlockResolver. scala。 它 是 一 个 trait, 
为 不 同 的 shuffle 操作 提供 获取 数据 的 方法 接口 。 


trait ShuffleBlockResolver | 
// 类 型 别名 ,给 Int 取 别 名 为 ShuffleId 
typeShuffleld = Int 
defgetBlockData(blockId: ShuffleBlockId) ; ManagedBuffer 
def stop( ) ; Unit 


Scala 高 级 类 型 


7.12 BA 


本 章 对 Scala 中 10 种 常见 的 高 级 类 型 进行 了 详细 介绍 ， 包 括 单 例 类 型 、 类 型 别名 、 自 身 > 
类 型 、 中 置 类 型 、 类 型 投影 、 结 构 类 型 、 复 合 类 型 、 存 在 类 型 、 函 数 类 型 及 抽象 类 型 ， 这 些 

Scala 高 级 类 型 都 属于 语法 糖 的 范畴 ， 在 编写 大 规模 应 用 程序 时 使 用 这 些 高 级 类 型 能 够 简化 

程序 设计 。 在 这 些 高 级 类 型 当中 ， 重 点 应 该 掌握 单 例 类 型 、 类 型 别名 、 自 身 类 型 、 存 在 类 型 

及 抽象 类 型 的 使 用 。 在 本 章 最 后 还 给 出 了 Spark 源码 中 高 级 类 型 的 使 用 ， 民 在 说 明 高 级 类 型 

在 实际 大 型 项 目 中 的 重要 性 。 
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第 8 if Scala 隐 式 转换 


在 Scala 语言 当中 ， 隐 式 转 换 是 一 项 强大 的 程序 语言 功能 ， 它 不 仅 能 够 简化 程序 设计 ， 
也 能 够 使 程序 具有 很 强 的 灵活 性 。 要 想 更 进一步 地 掌握 Scala 语言 ， 了 解 隐 式 转换 的 作用 与 
原理 是 很 有 必要 的 ， 否 则 很 难得 心 应 手 地 处 理 日 常 开发 中 遇 到 的 问题 。 在 Scala 语言 中 ， 隐 
式 转换 无 处 不 在 ， 只 不 过 Scala 语言 隐藏 了 相应 的 细节 ， 例 如 ，nt 类 型 在 必要 的 情况 下 自动 
转换 为 RichInt 类 型 ， 如 图 8-1 所 示 。 


八 


O ScalaNumberProxy[Int] (€) RangedProxy[Int] 


i 


(€) RichInt 


Al 8-1 Int 类 型 到 RichInt 的 隐 式 转换 


不 但 如 此 ，Scala 语言 中 的 视图 界定 、 上 下 文 界定 背后 的 原理 都 是 通过 隐 式 转换 来 完成 
的 。 在 本 章 中 ,会 详细 地 对 Scala 中 的 隐 式 转换 相关 内 容 进行 介绍 。 


隐 式 转换 函数 
Soli) 隐 式 转换 函数 的 定义 


隐 式 转换 背后 实现 的 深层 机 制 便 是 隐 式 转换 函数 (implicit conversion method) ) 。 隐 式 转 
换 函 数 的 作用 是 在 无 须 显 式 调 用 的 情况 下 ， 自 动 地 将 一 个 类 型 转换 成 男 一 个 类 型 。 在 Scala 
语言 中 ， 将 一 个 Double 类 型 赋值 给 Int 类 型 是 非法 的 ， 例 如 : 


scala > val x:Int = 1. 55 
< Console > :10: error: type mismatch ; 
found : Double(1. 55) 
required; Int 
val x: Int =1. 55 
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但 如 果 给 定 一 个 隐 式 转换 函数 ， 上 面 的 代码 便 能 够 顺利 执行 ， 隐 式 转 换 函 数 同 一 般 函 数 
的 区 别 在 于 隐 式 转换 孔 数 前 面 需要 加 implicit KF, 例如: 


// 定 义 一 个 隐 式 函数 double2Int, 将 输入 的 参数 从 Double 类 型 转换 成 Int 类 型 
scala > implicit def double2Int( x:Double) = x. toInt © 
double2Int: (x; Double) Int 

// Si Epi 18s BS IY AS DG ACY, 2 ARA S Bk cS H R IF ed 

scala > val x: Int =1. 55 

x: Int=1 


在 上 述 代 码 中 ，implicit def double2Int(x;Double) =x. tolnt EEKAN RHR, TA KRH 
输入 类 型 是 Double 类 型 ， 返 回 值 类 型 是 Int W, H LAA I RR R BG — PPR AE SAY 
唯一 区 别 在 于 函数 前 面 加 了 个 关键 字 implicit， 变 量 定义 val x:Int =1.55 本 身 是 不 合法 的 ， 
但 因为 隐 式 转换 函数 的 存在 ， 编 译 咒 会 自动 查找 一 个 输入 类 型 是 Double、 返 回 值 类 型 是 mt 
的 隐 式 转换 函数 ， 从 而 使 变量 定义 val x:Int =1. 55 顺利 执行 。 需 要 注意 的 是 隐 式 函数 与 函数 
的 标签 有 关 ， 即 与 输入 输出 类 型 相关 ， 与 函数 名 称 无 关 ， 上 述 函 数 名 为 double2Int 的 隐 式 转 
换 函 数 可 以 是 任意 合法 的 函数 名 ， 如 : 


// 隐 式 转换 函数 与 其 输入 输出 参数 相关 ,与 函数 名 称 无 关 , 可 以 是 任意 合法 的 函数 名 
scala > implicit def d2i( x:Double) =x. toInt 
d2i: (x: Double) Int 


scala > val x; Int = 1. 55 
x: Int=1 


虽然 函数 名 称 可 以 是 任意 的 ， 但 推荐 使 用 一 些 与 隐 式 转换 函数 功能 一 致 的 函数 名 称 ， 例 
如 double2Int， 这 种 隐 式 转换 函数 让 人 见 名 知 意 ， 可 以 增强 程序 的 可 读 性 。 


隐 式 转换 函数 的 功能 


隐 式 转换 函数 可 以 快速 地 扩展 类 的 功能 ， 如 例 8-1 所 示 。 该 例 演示 如 何 通过 隐 式 转换 
快速 扩展 Person 类 的 功能 ，Person 类 中 并 未 定义 fly 方法 ， 而 是 通过 隐 式 转换 调用 SuperMan 
的 fly 方法 。 

【 例 8-1) 隐 式 转换 快速 扩展 类 的 功能 。 


//SuperMan, 定 义 了 一 个 成 员 方法 fly 
class SuperMan | 
def fly( ) = println( " Superman flying" ) 
| 
// Person 类 ,没有 定义 任何 成 员 变 量 和 成 员 方法 


class Person 


Sl ie ON E Naa 


objectImplicitFunction extends App | 
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8. // 定 义 一 个 隐 式 转换 ,将 Person 转换 成 SuperMan 


9. implicit def person2Superman( p:Person) = new SuperMan 
10. 
11. val p = new Person 
12. // 经 过 隐 式 转换 调用 SuperMan 的 fly 方法 
13. p. fly( ) 
Te 
代码 执行 结果 如 下 : 


Superman flying 


通过 代码 结果 可 以 看 到 ， 最 终 和 输出 的 是 SuperMan AY fly 方法 打印 得 到 的 结果 。 例 8-1 中 
第 2 ~4 行 代码 定义 了 SuperMan 类 ,该 类 中 定义 了 一 个 成 员 方法 fly, 第 6 行 定义 了 一 个 Per- 
son 类 ,该 类 没有 任何 成 员 变 量 和 成 员 方法 ,第 9 行 代 码 定义 了 一 个 隐 式 转换 函数 
person2Superman , 该 函数 可 以 隐 式 地 将 Person 转换 成 SuperMan, 然后 在 第 13 行 代码 直接 调 
用 SuperMan "PÉS fly 方法 。 通 过 这 个 例子 可 以 看 到 ，Person 不 通过 继承 关系 就 可 以 直接 使 用 
SuperMan 类 中 的 方法 ， 从 而 达到 快速 扩展 Person 类 功能 的 目的 。 


隐 式 类 与 隐 式 对 象 


8.2.1 EEE D 


在 Scala 语言 中 ， 隐 式 转换 的 普遍 性 也 体现 在 Scala 语言 提供 隐 式 类 (implicit classes) , 
例 8-1 中 的 代码 可 以 利用 隐 式 类 进行 进一步 简化 ， 隐 式 类 的 定义 同 普通 的 类 相似 ， 只 不 过 
需要 在 class 关键 字 前 面 加 上 implicit 关键 字 ， 具 体 使 用 如 例 8-2 所 示 。 该 例 通 过 隐 式 类 扩展 
Person 类 的 功能 。 与 通过 隐 式 转换 函数 扩展 不 同 ， 通 过 隐 式 类 可 以 使 代码 更 简洁 。 

【 例 8-2】 隐 式 类 扩展 类 的 功能 。 


class Person 
objectImplicitClass extends App| 
// 定 义 一 个 隐 式 类 ,该 类 的 主 构 造 带 参数 为 待 转换 的 类 , 隐 式 类 类 名 为 转换 后 的 类 


implicit class SuperMan(p: Person) | 


| 


val p = new Person 


1 
2 
3 
4 
De def fly( ) = println( " Superman flying" ) 
6 
y 
8 p. fly) 

9 


| 
代码 执行 结果 如 下 : 
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Superman flying 


例 8-2 第 4 行 代码 定义 了 一 个 隐 式 类 SuperMan， 可 以 看 到 隐 式 类 的 定义 同 普通 类 的 区 
别 在 于 前 面 的 implicit 关键 字 ， 隐 式 类 主 构造 器 参数 为 待 转换 的 类 ， 隐 式 类 类 名 为 转换 后 的 
类 ， 代 码 第 7 ~8 行 给 出 了 隐 式 类 的 使 用 ， 在 Person 类 中 并 没有 定义 成 员 方 法 fy， 这 后 面 的 
实现 机 制 便 是 隐 式 转换 ， 将 Person 类 对 象 自动 转换 成 SuperMan 类 对 象 。 隐 式 类 的 作用 机 制 
同 例 8-1， 也 就 是 说 隐 式 类 最 终 被 解析 成 的 普通 类 和 隐 式 转换 函数 。 


隐 式 参数 与 隐 式 值 


除 隐 式 转换 函数 、 隐 式 类 外 ，Scala 语言 中 还 存在 隐 式 参数 和 隐 式 值 ， 隐 式 参数 在 定义 
函数 时 通过 implict 关键 字 指 定 ， 隐 式 值 的 定义 与 一 般 变 量 的 定义 类 似 ， 只 不 过 需要 在 最 前 
面 加 个 关键 字 implicit， 具 体 使 用 如 例 8-3 所 示 。 

【 例 8-3】 隐 式 参 数 与 隐 式 值 。 


// 下 面 定义 的 sum 函数 中 包含 了 隐 式 参数 , 隐 式 参数 通过 implict 关键 字 指 定 
// 需 要 注意 的 是 ,implict 关键 字 作 用 于 整个 函数 参数 , 即 参 数 x、y 都 为 隐 式 参数 
scala > def sum( implicit x: Int,y: Int) =x+y 

sum: (implicit x: Int,implicit y: Int) Int 

// 下 面 的 变量 x 为 隐 式 值 

scala > implicit val x:Int =5 

x: Int=5 

// 函 数 sum 因为 有 隐 式 参数 ,因此 在 使 用 时 可 以 不 指定 具体 的 参数 
// 编 译 顺 会 自动 在 相应 的 作用 域 中 查找 对 应 的 隐 式 值 

10. scala > sum 

11. res0: Int=10 


EE rN 


例 8-3 第 3 行 代码 给 出 了 隐 式 参数 的 使 用 ， 该 行 代码 定义 了 一 个 函数 sam， 函数 参数 为 
隐 式 参数 ， 通 过 implicit 关键 字 指定 ， 需 要 注意 的 是 ，implict 关键 字 的 作用 域 是 整个 函数 参 
数列 表 ， 也 就 是 说 参数 x、y 都 为 隐 式 参数 。 第 6 行 代码 定义 的 是 一 个 隐 式 值 ， 该 变量 的 作 
用 是 当 使 用 函数 sum 时 不 传递 任何 参数 ,编译 器 会 自动 查找 到 该 隐 式 值 作为 函数 的 参数 。 
第 10 行 代码 能 够 顺利 执行 正 是 这 个 原因 ， 由 于 函数 sum 没有 指定 参数 ， 编 译 器 便 会 查找 对 
应 类 型 的 隐 式 值 ， 在 本 例 中 是 隐 式 值 x*、y 作为 函数 sum 的 两 个 参数 ， 即 第 10 行 代码 的 sum 
调用 方式 相当 于 调用 sum(x =5,y=5)。 

隐 式 参数 在 实际 开发 中 非常 常见 ， 但 隐 式 参数 的 使 用 有 几 个 值得 注意 的 地 方 。 

1) implicit 关键 字 在 函数 参数 中 只 能 出 现 一 次 。 


/7 函数 参 数列 表 中 只 能 出 现 一 次 implicit 关键 字 
scala > def sum( implicit x: Int,implicit y: Int) =x +y 
< Console > :1: error: identifier expected but implicit found. 


def sum( implicit x; Int, implicit y: Int) =x +y 


© 


语言 基础 与 开发 实战 


2) implicit 关键 字 的 作用 域 是 整个 函数 参数 。 
def sum( implicit x; Int,y; Int) =x +y 中 的 implicit 关键 字 使 得 x、y 都 为 隐 式 参数 ， 如 果 
只 指定 一 个 隐 式 参数 ， 函 数 需 要 柯 里 化 。 


// 国 数 柯 里 化 可 以 指定 某 一 函数 参数 为 隐 式 参数 


scala > def sum( x; Int) (implicit y; Int) =x +y 


sum; (x; Int) (implicit y; Int) Int 
/人 /相当 于 调用 sum( 10) (5) 
scala > sum( 10) 

res2: Int =15 


因为 implicit 关键 字 在 函数 参数 中 只 能 出 现 一 次 ， 所 以 下 面 的 代码 也 是 非法 的 : 


scala > def sum( implicit x; Int) (implicit y: Int) =x +y 


< Console > :1: error: + expected but ( found. 


def sum( implicit x; Int) (implicit y; Int) =x +y 


另外 ， 还 需要 注意 的 是 柯 里 化 后 的 函数 implict 关键 字 只 能 放 在 最 后 一 个 柯 里 化 函数 参 
BoP, flan, 


// 下 面 的 代码 是 非法 的 ,因为 implicit 关键 字 只 能 放 在 最 后 一 个 柯 里 化 函数 参数 中 
scala > def sum( x; Int) (implicit y: Int)(z:Int) =x +y +z 
< Console > :1: error; = expected but ( found. 
def sum(x:Int) (implicit y;Int) (z:Int) =x +y +z 
// 下 面 的 代码 是 合法 的 ,implicit 关键 字 被 放置 在 最 后 一 个 柯 里 化 函数 参数 中 
scala > def sum(x:Int) (y:Int) (implicit z:Int) =x +y +z 
sum: (x:Int) (y:Int) (implicit z: Int) Int 


3) 匿名 函数 不 能 使 用 隐 式 参数 。 


/7 正常 定义 的 匿名 函数 sum 

scala > val sum =(x:Int,y:Int) =>x +y 

sum: (Int, Int) => Int =< function2 > 

/下 面 定义 的 匿名 函数 是 非法 的 ,因为 匿名 函数 中 出 现 了 implicit 关键 字 


scala > val sum = (implicit x:Int,y:Int) =>x +y 


< Console > :1:error: => expected but ', found. 


val sum = (implicit x:Int,y;Int) =>x +y 


4) 如 果 函 数 带 有 隐 式 参数 ， 则 不 能 使 用 其 部 分 应 用 函数 (Partial Applied Function) 。 


def sum(x: Int) (implicit y:Int) =x +y 
// 不 能 定义 sum 的 部 分 应 用 函数 ,因为 它 带 有 隐 式 参数 


// 错 误 提示 信息 :could not find implicit value for parameter y: 
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//lInt not enough arguments for method sum; 
// (implicit y;Int) Int. Unspecified value parameter y. 
def sum2 = sum _ 


类 型 证 明 中 的 隐 式 转换 


8. 3.1 类 型 证 明 的 定义 


类 型 证 明 ， 也 称 为 类 型 约束 ， 其 作用 是 进行 类 型 测试 ，Scala 语言 目前 支持 两 种 类 型 


证 明 . 


T=:=U 用 于 判断 了 是 否 等 于 
T<:<U 用 于 判断 了 是 否 为 U 的 子 类 


:=、<:<“ 很 像 一 个 操作 符 ， 但 其 实 它 是 scala 语言 中 的 类 ， 它 们 被 定义 在 Predef 当中 


@ implicitNotFound( msg =" Cannot prove that $ | From} < ; <${To}.") 
sealed abstract class < ; < | — From, + To] extends (From => To) withSerializable 

private[ this ] final val singleton_ <: <= new < ; < [ Any, Any] | def apply(x:Any) ; Any =x } 
// not in the < ; < companion object because it is also 
// intended to subsume identity (which is no longer implicit) 


implicit def conforms[ A] ;A <:< A=singleton < ; <. asInstanceOfl| A<:< A] 


@ implicitNotFound( msg = " Cannot prove that ${ From} = ; =${To}.") 
sealed abstract class = ; = [ From ,To | extends (From => To) withSerializable 
private[ this ] final val singleton_ = : ==new=;=[Any,Any] | def apply(x: Any) ; Any =x | 
object = ; = | 


implicit deftpEquals[ A ] ; A = ; = A =singleton_= ; =. asInstanceOf[ A =; =A] 


"了 类 型 证 明 使 用 实例 


类 型 证 明 中 的 隐匿 参数 具体 使 用 示例 如 例 8-4 所 示 。 本 例 通 过 在 def test[T] (name:T) 
(implicit ev:T < : < java. io. Serializable ) 方 法 中 加 入 隐 式 参数 ev 并 将 隐 式 参数 类 型 声明 为 T 
<: < java. io. Serializable， 从 而 达到 对 参数 的 类 型 进行 证 明 的 目的 。 

【 例 8-4】 类 型 证 明 中 的 隐 式 参数 使 用 示例 。 


1. ， objectTypeConstraint extends App | 
2: // 定 义 一 个 函数 ,该 函数 存在 一 个 隐 式 参数 ,用 于 对 传 入 的 参数 类 型 进行 证 明 
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3 def test[ T] (name:T) (implicit ev:T < ; < java. io. Serializable) = | name | 

4. // 编 译 通过 ,因为 String 类 型 实现 了 Serializable 接口 ,属于 Serializable 的 子 类 

5. println( test( "5K =" ) ) 

6 // 编 译 出 错 , 因 为 Int 类 型 没有 实现 Serializable 接口 ,不 属于 Seriablizable 的 子 类 
i //println(test( 134) ) 

8. | 


例 8-4 第 3 行 代码 定 义 了 一 个 泛 型 函数 ， 函 数 有 个 隐 式 参数 ， 该 隐 式 参数 使 用 类 型 证 明 
对 泛 型 参数 进行 约束 ， 要 求 泛 型 参数 T 必须 是 java. io. Serializable 的 子 类 ， 第 5 行 代 码 能 
顺利 运行 的 原因 是 String 类 型 实现 了 java. io. Serializable 接口 ， 满 足 类 型 证 明和 条件 ， 而 第 7 íT 
代码 编译 出 错 则 是 因为 Int 类 型 不 是 java. io. Serializable 的 子 类 。 第 3 行 代码 的 test PRCA S 
隐 式 参数 ， 但 在 使 用 时 并 没有 指定 相应 的 隐 式 值 ， 为 什么 这 样 也 是 合法 的 呢 ? 这 是 因为 Pre- 
def 中 的 conforms 方法 会 产生 一 个 隐 式 值 。 

类 型 证 明 < : < 与 类 型 变量 界定 < :有 什么 区 别 呢 [2]? 从 下 面 的 代码 来 看 : 


def testl[ T < :java. io. Serializable | (name:T) = | name} 
// 编 译 通过 ,符合 类 型 变量 界定 的 条 件 
println(testl(" 张 三 ") ) 

// 编 译 通 不 过 ,不 符合 类 型 变量 界定 的 条 件 
println( testl (134) ) 


看 上 去 两 者 之 间 并 没有 什么 具体 的 区 别 ,但 其 实 它们 之 间 还 是 有 很 大 差异 的 ， 下 面 的 代 
码 给 出 的 是 其 在 一 般 函 数 使 用 上 的 差别 : 


1. scala > deffool A,B <:A](a:A,b:B) =(a,b) 

2. foo:[ A B<:A](a:A,b:B) (A,B) 

3. 

4. /类 型 不 匹配 时 ,通过 类 型 推断 采用 父 类 进行 匹配 

5. scala > foo(1 ,List(1,2,3) ) 

6. resO:; (Any, List| Int] ) =(1,List(1,2,3) ) 

Je 

8. scala> defbar[A,B](a:A,b:B)(implicit ev:B<:< A) =(a,b) 
9. bar:[A,B](a:A,b:B) (implicit ev; <: <[B,A])(A,B) 

10. 


11. /严格 匹配 ,不 会 采用 父 类 进行 匹配 

12. scala > bar(1 ,List(1,2,3) ) 

13. < Console > ;9; error; Cannot prove that List| Int] < : < Int. 
14. bar(1, List(1 ,2 ,3) ) 


第 5 行 、 第 12 行 代码 展示 了 < :、< :< 之 间 的 区 别 ， 类 型 变量 界定 < :在 类 型 不 匹配 时 
会 采用 父 类 进行 匹配 ， 而 类 型 证 明 < : < 会 严格 匹配 。 下 面 的 代码 给 出 的 是 其 在 隐 式 转换 使 
用 上 的 差别 : 
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scala > deffool B,A<:B] (a:A,b:B) =print(" OK" ) 
foo:[B,A< :B](a:A,b:B) Unit 


scala > class A; class B; 
defined class A 


defined class B 


scala > implicit def a2b(a:A) =new B 


COMIN AnHR WN 


warning :there were 1 feature warning(s); re — run with — feature for details 
a2b:(a:A)B 
// 经 过 隐 式 转换 后 ,满足 要 求 
scala >foo( new A,new B) 
OK 
14. scala> def bar[ A,B] (a:A,b:B) (implicit ev: A < ; <B) = print( "OK" ) 
15. bar:[ A,B] (a:A,b:B) (implicit ev; < :<[A,B]) Unit 
16. // 可 以 看 到 , 隐 式 转换 在 < : < 类 型 约束 中 不 管用 


17. scala >bar(new A,new B) 


=. =e =e = 
ES 


18. < Console > :12 :error:Cannot prove that A < :< B. 
19. bar(new A,new B) 


第 12 行 、 第 17 行 代码 给 出 了 <:;、< :< 在 隐 式 转换 上 时 使 用 的 区 别 ， 类 型 变量 界定 
< :在 不 匹配 时 会 通过 隐 式 转换 来 进 行 匹配 ， 而 类 型 证 明 < : < 则 不 会 。 


| Section | 


EI 上 下 文 界定 、 视图 界定 中 的 隐 式 转换 


Ordering 与 Ordered 特质 


为 方便 后 期 理解 上 下 文 界定 、 视 图 界定 中 的 隐 式 转换 ， 这 里 先 对 Scala 语言 中 的 Orde- 
ring 与 Ordered 特质 做 一 个 简要 介绍 。 如 图 8-2、 图 8-3 所 示 分 别 是 trait Ordering, trait 
Ordered 的 继承 层次 结构 。 


(t) Ordering[T] 
Z\ 
18 classes/traits 


8-2 trait Ordering 继承 层次 结构 
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O Comparable[A] 


@ Deadline © orderedProxy[T] | | stringLike[+Repr] 


图 8-3 trait Ordered 继承 层次 结构 


从 图 8-2、 图 8-3 中 可 以 看 到 ，Ordering 混入 了 Java 中 的 Comparator 接口 ， 而 Ordered 
混入 了 Java 的 Comparable 接口 。Java 中 的 Comparator 是 一 个 外 部 比较 如 ， 而 Comparable 则 


是 一 个 内 部 比较 器 。Comparator 接口 用 于 两 个 对 象 比较 的 使 用 方式 如 例 8-5 所 示 ，Compara- 


ble 接口 用 于 两 个 对 象 的 比较 使 用 方式 如 例 8-6 所 示 。 

【 例 8-5] Java Comparator 接口 的 使 用 示例 。 

本 例 是 Comparator 作 外 部 比较 器 的 使 用 ， 比 较 时 涉及 到 3 个 对 象 ， 分 别 是 PersonComp- 
artor 对 象 MA Person 类 对 象 。 


NOS MCs Tt ENS A Se ee SE 


// 下 面 是 定义 的 Person 28 (Java) 
public class Person | 

private String name; 

public String getName( ) | 

return name ; 

} 

public void setName ( String name) | 
this. name = name; 

| 


Person( String name) | 


. this. name = name; 


| 
| 


. //Comparator 接口 ,注意 它 是 在 java. util 包 中 的 

. public class PersonCompartor implements Comparator < Person > | 
. @ Override 

. public int compare( Person ol Person 02) | 

. if (ol. getName( ). equalsIgnoreCase( 02. getName() ) ) | 


. return 1; 


| else} 


. return —1; 


| 
| 
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24. public static void main( String| ] args) | 

25. PersonCompartor pe = new PersonCompartor( ) ; 

26. Person pl = new Person(" 张 三 " ) ; S 
27. Person p2 = new Person ("3K = 2"); 

28，/ 下 面 是 它 的 对 象 比 较 使 用 方式 

29，/ 可 以 看 出 这 是 通过 外 部 对 象 进行 方法 调用 的 

30. if(pe. compare(pl, p2) >0) | 


31. System. out. printIn( pl ) ; 


32. | else| 

33. System. out. println( p2) ; 
S40 

D |) 

36. } 


【 例 8-6] Java Comparable 接口 的 使 用 示例 。 
本 例 是 Comparable 作 内 部 比较 器 的 使 用 ， 使 用 时 只 涉及 到 两 个 Person 类 对 象 ， 这 是 它 
与 Comparator 接口 在 使 用 时 的 最 大 区 别 。 


1. public class Person implements Comparable < Person > | 
2 private String name; 

3 public String getName() | 

4 return name; 

5. } 

6 public void setName ( String name) | 
7 this. name = name; 

8 | 

9 Person( String name) | 

10. this. name = name; 

11. } 

12. @ Override 

13. public int compareTo( Person 0) | 
14. if (this. getName( ). equalsIgnoreCase( o. getName( ) ) ) | 
15. return 1; 

16. | else} 

17. return —1; 

18. | 

19. } 

20. | 

21. 


22. public class PersonComparable | 
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24. public static void main( String[ | args) | 
2 Person pl = new Person(" 张 三 " ) ; 
26. Person p2 = new Person(" 张 三 2" ) ; 
D. // 对 象 自身 与 其 他 对 象 比 较 , 而 不 需要 借助 第 三 
28. if(pl. compareTo( p2) >0) | 

29. System. out. println( pl ) ; 

30. | else | 

31. System. out. println( p2) ; 

327 \ 

33. } 

34. } 


从 例 8-5、 例 8-6 中 可 以 了 解 Comparable 与 Comparator 接口 两 者 的 本 质 不 同 ， 使 用 
Comparator 进行 比较 时 涉及 到 3 个 对 象 ， 分 别 是 PersonCompartor pe = new PersonCompartor( ) 、 
Person pl = new Person(" 张 三 " ) Person p2 = new Person(" 张 三 2" ) ， 而 使 用 Comparable 接 
口 进 行 对 象 比 较 时 ， 只 涉及 到 两 个 对 象 Person pl = new Person(" 张 三 " ) Person p2 = new 
Person(" 张 三 2" ) Scala 中 的 Ordering 混入 了 Comparator, Ordered 混入 了 Comparable， 因 此 
Ordered 与 Ordering 之 间 的 区 别 和 Comparable 与 Comparator 间 的 区 别 是 相同 的 ， 也 即 Ordered 
为 内 部 比较 器 ， 在 进行 比较 时 涉及 到 的 对 象 只 有 两 个 ， 而 Ordering 为 外 部 比较 带 ， 在 进行 对 
象 比较 时 需要 3 个 对 象 ， 除 待 比 较 的 两 个 对 象 外 还 需要 第 三 方 对 象 才能 完成 比较 。 在 此 给 出 
Ordered 在 scala 中 的 用 法 ， 至 于 Ordering 的 用 法 ， 可 以 参考 Comparator, 

【 例 8-7] Scala Ordered Trait 使 用 示例 。 

本 例 是 类 型 变量 界定 中 的 Ordered 使 用 ， 由 于 Ordered 为 内 部 比较 器 ， 所 以 可 以 直接 使 
用 first < second 这 种 方式 进行 对 象 间 的 比较 。 


1. case class Student( val name:String) extends Ordered| Student] | 
De override def compare( that ; Student) ; Int = | 

3h, if( this. name == that. name) 

4. 1 

5. else 

6. -1 

T: 

8. 

9. 


10. /将 类 型 参数 定义 为 T< :Ordered[T] , 它 是 类 型 变量 界定 (Type Variable Bound) 
11. classPairComparable[ T < ; Ordered[ T] | ( val first:T,val second:T) | 

12. /比较 的 时 候 直 接 使 用 < 符号 进行 对 象 之 间 的 比较 

13. def smaller( ) = | 

14. if(first < second) 

15. first 

16. else 
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17. second 

18. } 

19. } 

20. © 
21. objectOrderedViewBound extends App |Í 

DD, val p=new PairComparable( Student(" 张 三 " ) ,Student(" 3k = 2" ) ) 

23% println( p. smaller) 

24 | 


代码 运行 结果 如 下 。 
Student( 张 三 ) 
例 8-7 第 1 行 代码 定义 的 Student 类 继承 Ordered， 然 后 重 写 了 父 类 的 compare 方法 (IL 
代码 第 2 ~7 ÍT), 2 PairComparable[T < :Ordered[T] ] 中 的 类 型 参数 为 类 型 变量 界定 (Type 


Variable Bound) T < ;Ordered[ T], #278 T A419 Ordered 的 子 类 ， 因 此 在 类 中 定义 的 smaller 
方法 中 可 以 直接 使 用 first < second 进行 对 象 比较 。 


| 8. 4.2 | 视图 界定 中 的 了 隐 式 转换 


视图 界定 (View Bound) 在 泛 型 的 基础 上 ， 对 泛 型 的 范围 进行 进一步 限定 ， 相 比 于 类 型 
变量 界定 建立 在 类 继承 层次 结构 的 基础 上 ， 视 图 界定 可 以 跨越 类 继承 层次 结构 ， 其 作用 原理 
便 是 隐 式 转换 。 

【 例 8-8】 视 图 界定 中 的 隐 式 转换 示例 。 


1. // 利 用 <% 符 号 对 泛 型 $ 进行 限定 , 它 的 意思 是 S 可 以 是 Comparable 类 继承 层次 结构 中 实 
现 了 Comparable 接口 的 类 
//[ 也 可 以 是 能 够 经 过 隐 式 转换 得 到 的 类 ,该 类 实现 了 Comparable 接口 


case class Student[ T,S < % Comparable[ S| ] (var name:T,var height:S) 


2 
3 
4 
5. objectViewBound extends App| 
6. val s = Student( " john" ,"170") 
7 
8 
9 


// 下 面 这 条 语句 在 视图 界定 中 是 合法 的 ,因为 Int 类 型 此 时 会 隐 式 转换 为 RichInt 类 
// 而 RichInt 类 属于 Comparable 类 继承 层次 结构 
val s2 = Student( "john" ,170) 
10. printIn( s2) 


Student(john ,170 ) 


可 以 看 到 ， 即 使 age 为 Int 类 型 也 是 合法 的 。 例 8-8 第 9 行 代码 之 所 以 能 够 编译 通过 ， 
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原因 在 于 第 3 行 Student 类 的 类 型 参数 S 通过 视图 界定 进行 了 限定 ， 这 意味 着 类 型 参数 S 不 
仅 可 以 是 Comparable 类 层次 结构 上 的 类 ， 也 可 以 是 能 够 经 过 隐 式 转换 后 的 类 ， 只 要 该 类 实 
现 了 Comparable 接口 ， 第 9 行 代码 的 参数 是 Int 类 型 ， 它 会 自动 转换 成 RichInt BWIA, m 
RichInt 类 混入 了 Comparable 接口 。 查 看 RichInt Scala API 文档 可 以 看 到 如 图 8-1 所 示 的 
RichInt 类 继承 层次 结构 ，RichInt 类 并 没有 直接 混入 Comparable 接口 ， 而 是 通过 ScalaNum- 
berProxy 类 将 Comparable 中 的 方法 继承 过 来 ，ScalaNumberProxy 类 继承 层次 结构 如 图 8-4 所 
示 ，ScalaNumberProxy 混入 了 OrderedProxy， 而 OrderedProxy 混入 了 特质 Ordered, trait Or- 
dered 混入 了 Comparable 接口 。 也 就 是 说 Int 转换 成 RichInt 后 ， 由 于 RichInt 属于 Comparable 
的 子 类 ， 因 此 满足 视图 界定 的 要 求 。 


(€) OrderedProxy[T] 3 Math.Ordered[OrderedProxy[T]] 
Q RichBoolean (t) ScalaNumberProxy[T] 


图 8-4 ScalaNumberProxy 类 继承 层次 结构 


上 下 文 界定 中 的 隐 式 转换 > 


同 视图 界定 一 样 ， 上 下 文 界 定 (Context Bound) 后 面 的 实现 原理 同样 是 通过 隐 式 转换 来 
实现 的 ， 只 不 过 上 下 文 界 定 采 用 隐 式 值 来 实现 ， 上 下 文 界 定 的 类 型 参数 形式 为 T: M 的 形 
式 ， 其 中 M 是 一 个 泛 型 ， 这 种 形式 要 求 存在 一 个 M [T] 类 型 的 隐 式 值 。 如 例 8-9 所 示 。 
该 例 是 上 下 文 界定 中 的 隐 式 转换 使 用 ，PersonOrdering 继承 Ordering [Person], ， 类 class Pair- 
Comparator[ T:Ordering ] (val first:T,val second:T) 中 的 类 型 参数 为 [T:Ordering]， 它 表明 当 
前 作用 域 中 必须 存在 一 个 Ordering [T] 的 隐 式 值 ， 而 PersonOrdering 继承 自 Ordering[ Per- 
son] ， 在 使 用 时 定义 这 样 一 个 隐 式 对 象 即 可 。 

【 例 8-9】 上 下 文 界定 中 的 隐 式 转换 示例 。 


//PersonOrdering 混入 了 Ordering, 它 与 实现 了 Comparator 接口 的 类 的 功能 一 臻 
classPersonOrdering extends Ordering[ Person | | 
override def compare( x:Person,y:Person) :Int = | 
if( x. name > y. name) 
1 
else 


= 
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10. case class Person( val name:String) | 

11. printIn(" 正 在 构造 对 象 ." + name) 

ip, | 

13. /A 下 面 的 代码 定义 了 一 个 上 下 文 界定 

14.”// 它 的 意思 是 在 对 应 的 作用 域 中 ,必须 存在 一 个 类 型 为 Ordering[T] 的 隐 式 值 ,该 隐 式 值 可 
以 作用 于 内 部 的 方法 

15. classPairComparator[ T ; Ordering | (val first:T, val second:T) | 

16. //smaller 方法 中 有 一 个 隐 式 参数 ,该 隐 式 参数 类 型 为 Ordering[T] 

17. def smaller( implicit ord; Ordering[ T] ) = | 


18. if( ord. compare (first,second) <0) 
19. first 

20. else 

Pile second 

DD, } 

D 

24. 


25. objectConextBound extends App | 

26. // 定 义 一 个 隐 式 值 , 它 的 类 型 为 Ordering[ Person | 

之 下 implicit val pl = newPersonOrdering 

28. val p =newPairComparator( Person( "123" ) ,Person( "456" ) ) 

29. // 不 给 函数 指定 参数 ,此 时 会 查找 一 个 隐 式 值 ,该 隐 式 值 类 型 为 Ordering[ Person ] ,根据 
上 下 文 界定 的 要 求 ,该 类 型 正好 满足 要 求 

30. // 因 此 它 会 作为 smaller 的 隐 式 参数 传人 ,从 而 调用 ord. compare ( first, second ) 方法 进行 


比较 
31. println( p. smaller) 
By. | 
代码 执行 结果 如 下 : 


正在 构造 对 象 :123 
正在 构造 对 象 :456 
Person( 123 ) 


通过 代码 运行 结果 可 以 看 到 ， 执 行 printIn (p. smaller) 未 给 定 参 数 ， 而 是 使 用 隐 式 值 
printIn( p. smaller) 作为 隐 式 参数 。 第 2 ~9 行 代码 定义 了 一 个 类 PersonOrdering , 该 类 扩展 特 
质 Ordering， 实 现 了 自己 的 compare 方法 。 第 15 ~ 22 行 代码 定义 了 用 于 对 两 个 进行 比较 的 
class PairComparator[ T ; Ordering | ( val first:T,val second:T) 类 ， 类 的 定义 中 使 用 了 上 下 文 界定 
[T: Ordering] (ERME T H Person 类 ) ， 这 意味 着 在 相应 的 作用 域 中 必须 存在 一 个 隐 式 值 
Ordering[ Person] (第 27 行 代 码 定 义 了 该 隐 式 值 对 象 ) ， 该 隐 式 值 作 用 于 第 17 行 代码 的 
smaller 方 法， 作为 方法 的 参数 ， 从 而 实现 了 两 个 对 象 的 比较 。 


语言 基础 与 开发 实战 


E 隐 式 转换 规则 


隐 式 转换 在 Scala 语言 中 无 所 不 在 ， 其 重要 程度 不 言 而 喻 ， 要 彻底 掌握 隐 式 转换 ， 必 须 
掌握 隐 式 转换 的 相应 规则 ， 如 此 才能 理解 什么 情况 下 会 发 生 隐 式 转换 、 为 什么 会 或 不 会 发 生 
隐 式 转换 。 先 来 看 一 下 ， 在 什么 情况 下 下 会 发 生 隐 式 转换 。 


发 生 隐 式 转换 的 条 件 


1) 隐 式 转换 函数 必须 在 有 效 的 作用 域 范 围 内 才能 生效 
【 例 8-10】 隐 式 函 数 作 用 域 范围 示例 。 


// 定 义 子 包 implicitConversion 
// 然 后 在 object ImplicitConversion 中 定义 相关 的 隐 式 转换 方法 
packageimplicitConversion | 
objectImplicitConversion | 
implicit def double2Int( x:Double) =x. toInt 
[foo 其 他 隐 式 方法 ……: 
| 
| 
objectImplicitFunction extends App | 


10. // 在 使 用 时 引入 所 有 的 隐 式 方法 


SS OO ers ON a AN e ce 


11. importimplicitConversion. ImplicitConversion. _ 
12: 

13. var x: Int =3.5 

14. | 


第 3 ~8 行 代码 定义 了 包 implicitConversion ， 在 该 包 定 义 了 一 个 单 例 对 象 ImplicitConve- 
rsion ， 将 所 有 相关 的 隐 式 转换 函数 放 在 ImplicitConversion 中 ， 如 此 它 便 可 以 在 程序 的 任何 
地 方 使 用 ,使 用 时 将 其 引入 到 相应 的 作用 域 即 可 ,第 11 行 代码 演示 了 使 用 方式 。 隐 式 转 
换 函 数 的 这 种 使 用 方式 十 分 普遍 ， 例 如 Scala 语言 在 默认 情况 下 会 自动 引入 Predef 对 象 中 所 
有 的 方法 ， 这 里 面包 含 了 大 量 的 隐 式 转换 函数 ， 在 Scala REPL 命令 行 中 输入 : implicits ~ v 
命令 可 以 得 到 如 下 内 容 : 


scala > :implicits —v 

/ * 78 implicit members imported from scala. Predef * / 
/ * 48 inherited from scala. Predef * / 
implicit def any2 ArrowAssoc[ A ] (x;A) :ArrowAssoc[ A ] 
implicit def any2Ensuring[ A | (x: A) :Ensuring[ A ] 
implicit def any2stringadd(x; Any) : runtime. StringAdd 
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implicit def any2stringfmt( x: Any ) :runtime. StringFormat 
implicit def boolean2BooleanConflict( x: Boolean) ; Object 
implicit def byte2ByteConflict(x; Byte) :Object 
implicit def char2CharacterConflict(x;Char) :Object S 
implicit def double2 DoubleConflict (x; Double) :Object 
implicit def float2FloatConflict (x; Float) :Object 
implicit def int2IntegerConflict(x;Int) :Object 
implicit def long2LongConflict(x; Long) :Object 
implicit def short2ShortConflict(x:Short) :Object 
// 其 他 隐 式 转换 函数 …… 


Scala 通过 这 种 方式 将 所 有 的 隐 式 函数 引入 到 当前 作用 域 ， 只 不 过 编译 带 上 默认 已 经 自动 
进行 了 引入 。 
2) 当 方 法 中 参数 的 类 型 与 实际 类 型 不 一 致 时 ,编译 融会 尝试 进行 隐 式 转换 。 


def f(x:Int) =x 

// 方 法 中 输入 的 参数 类 型 与 实际 类 型 不 一 致 ,此 时 编译 融会 尝试 进行 隐 式 转换 

// 在 当前 作用 域 范 围 内 查找 一 个 double 类 型 到 Int 类 型 的 隐 式 转换 函数 ,转换 后 再 进行 方法 的 
执行 

f(3. 14) 


上 面 的 代码 函数 输入 参数 类 型 是 Int 类 型 ， 而 调用 时 指定 的 类 型 是 Double 类 型 ， 编 译 器 
发 现 类 型 不 匹配 ， 此 时 编译 器 会 尝试 在 当前 作用 域 范围 内 查找 一 个 输入 类 型 是 Double、 返 回 
值 类 型 是 Int 类 型 的 隐 式 转换 函数 ， 如 果 有 ， 则 进行 隐 式 转换 ， 转 换 后 再 调用 目标 函数 ， 如 
果 没 找到 这 样 的 隐 式 转换 函数 ， 则 报错 。 

3) 当 调 用 类 中 不 存在 的 方法 或 成 员 时 ， 会 自动 将 对 象 进行 隐 式 转换 。 

当 对 象 调 用 了 某 个 类 中 不 存在 的 方法 时 ,编译 器 会 在 当前 作用 域内 尝试 进行 隐 式 转换 ， 
如 例 8-1 中 的 Person 类 并 没有 方法 , 但 之 所 以 能 够 顺利 执行 是 因为 编译 器 会 自动 将 查找 
相应 的 隐 式 转换 函数 或 隐 式 类 ， 将 Person 类 转换 成 SuperMan， 最 终 调用 SuperMan 中 的 fly 
方法 。 


不 会 发 生 隐 式 转换 的 条 件 


清楚 了 什么 时 候 会 发 生 隐 式 转换 ， 现 在 再 来 看 一 下 什么 情况 下 不 会 发 生 隐 式 转换 。 
1) 如 果 转 换 存 在 二 义 性 ， 则 不 会 发 生 隐 式 转换 ， 见 例 8-11。 
【 例 8-11】 存 在 二 义 性 时 不 会 发 生 隐 式 转换 示例 。 


1. class SuperMan | 

2 def fly( ) = println( " Superman flying" ) 
Jo of 

4 class SuperMan2 | 
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def fly( ) = println( " Superman2 flying" ) 


class Person 


objectImplicitFunction extends App | 


// 定 义 一 个 隐 式 转换 函数 ,将 Person 转换 成 SuperMan 
implicit def person2Superman( p:Person) = new SuperMan 
// 定 义 一 个 隐 式 转换 函数 ,将 Person 转换 成 SuperMan2 
implicit def person2Superman2(p:Person) = new SuperMan2 


val p = new Person 

// 存 在 二 义 性 ,编译 报错 

//type mismatch; found :ImplicitFunction. p. type (with underlying type Person) 
//required:? | def fly:?} 


//Note that implicit conversions are not applicable because they are ambiguous: 

//both method person2Superman in objectImplicitFunction of type (p:; Person) SuperMan 
// and method person2Superman?2 in objectImplicitFunction of type (p :Person ) SuperMan2 
// are possible conversion functions fromImplicitFunction. p. type to ? | def fly:?} 


p- fly() 


fi) 8-11 第 8 行 、 第 10 行 代码 定义 了 两 个 隐 式 转换 函数 ， 分 别 是 person2Superman per- 
son2Superman2 ， 这 两 个 隐 式 转换 函数 输入 类 型 都 是 Person 类 ， 输 出 类 型 都 为 SuperMan 类 ， 
因此 第 19 行 代码 p. fly( ) 编译 时 会 出 错 ， 编 译 器 给 出 “Note that implicit conversions are not 
applicable because they are ambiguous…” 提示 。 

2) 隐 式 转换 不 会 典 套 进行 ， 示 例 代 码 见 例 8-12。 

[B] 8-12] 隐 式 转换 不 会 春 套 进行 示例 。 


和 全 六 汪 a 


= =e =e = = 
bor eat OS 


class SuperMan | 


def fly( ) = println( " Superman flying" ) 


classSuperSuperMan(s:SuperMan) | 
def fly2( ) =s. fly() 


class Person 
object ImplicitFunctionNested extends App | 
// 定 义 一 个 隐 式 转换 函数 ,将 Person 转换 成 SuperMan 
implicit def person2Superman( p:Person) = new SuperMan 
// 定 义 了 另外 一 个 隐 式 转换 函数 ,将 SuperMan 转换 成 SuperSuperMan 
implicit def superMan2SuperSuperMan(s:SuperMan) = new SuperSuperMan( s) 
val p = new Person 


// 编 译 通 不 过 ,因为 隐 式 转换 不 会 脱 套 执行 
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15$. ”// 不 要 期 望 p 会 先 转换 成 SuperMan 类 型 ,然后 SuperMan 类 型 再 隐 式 转换 到 SuperSuperMan 
类 型 
16. p. fly2( ) 


17. | © 


例 8-12 1 ~3 行 代码 定义 了 SuperMan 类 ， 第 4 ~6 行 代码 定义 了 另外 一 个 SuperSuper- 
Man 类 ， 类 中 定义 了 一 个 fly2 方法 ， 其 调用 的 是 SuperMan 类 中 的 二 方法 ,第 10 行 代 码 定 
义 了 一 个 Person 到 SuperMan 的 隐 式 转换 男 数 ， 第 12 行 代码 又 定义 了 一 个 SuperMan 到 Su- 
perSuperMan 的 隐 式 转换 函数 ， 第 16 行 代码 p. fy2() 期 望 的 是 Person 类 能 够 隐 式 转换 成 Su- 
perMan， 然 后 再 进一步 隐 式 转换 成 SuperSuperMan， 最 终 调 用 SuperSuperMan 的 fly2 方法 , 但 
事实 上 这 是 行 不 通 的 ，Scala 语言 不 允许 构 套 隐 式 转换 。 之 所 以 做 这 样 的 限制 是 有 原因 的 ， 
隐 式 转换 如 果 可 以 般 套 ,会 使 代码 的 行为 难以 控制 ， 隐 式 转换 可 能 无 限 地 进行 下 去 ， 严 重 降 
低 编译 和 执行 效率 ， 甚 至 造成 代码 无 法 执行 。 

需要 注意 的 是 ， 隐 式 转换 不 会 舱 套 进行 指 的 是 从 源 类 型 到 目标 类 型 的 隐 式 转换 不 会 多 次 
进行 ， 也 即 源 类 型 到 目标 类 型 的 转换 只 会 进行 一 次 ， 这 并 不 意味 着 程序 中 不 会 发 生 多 次 隐 式 
转换 ， 具 体 代 码 如 例 8-13 所 示 。 

【 例 8-13】 多 次 隐 式 转换 的 示例 。 


1. classClassA | 

Ds override def toString( ) =" This is Class A" 
3, Ot 

4. classClassB | 

5 override def toString( ) =" This is Class B" 
6. } 

7. classClassC | 

8. override def toString( ) =" This isClassC" 
9. defprintC(c:ClassC) = println(c) 

10. | 

11. classClassD 

12. 

13.  objectImplicitWhole extends App | 

14. implicit def B2C(b;ClassB) = | 

15. println( " B2C" ) 

16. newClassC 

17. } 

18. implicit def D2C(d:ClassD) = | 

19. println(" D2C" ) 

20. newClassC 

21. } 

22. ”// 下 面 的 代码 会 进行 两 次 隐 式 转换 ,因为 ClassD 中 并 没有 printC 方法 ,因此 它 会 隐 式 转换 


Ay ClassC (ik F255 — 1K , D2C) 
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23. // 然 后 调用 printC 方法 ,但 是 printC 方法 只 接受 ClassC 类 型 的 参数 ,然而 传人 的 参数 类 型 是 
ClassB ,类 型 不 匹配 ， 

24. /从 而 又 发 生 了 一 次 隐 式 转换 (这 是 第 二 次 ,B2C) ,从 而 最 终 实 现 了 方法 的 调用 

DE, newClassD(). printC( new ClassB ) 

26. | 


代码 执行 结果 如 下 : 


D2C 
B2C 
This isClassC 


例 8-13 第 14 ~17 行 代码 ， 定 义 了 一 个 隐 式 转换 函数 implicit def B2C(b:ClassB) ， 该 函 
数 将 ClassB 隐 式 转换 为 ClassC， 第 18 ~21 行 代码 定义 了 一 个 隐 式 转换 函数 implicit def D2C 
(d:ClassD) ， 该 函数 将 ClassD 隐 式 转换 成 ClassC， 编 译 器 遇 到 第 25 行 代码 时 ， 发 现 classD 
对 象 调 用 的 方法 是 printC 方法 ,但 ClassD 类 中 并 没有 定义 printC 方法 ， 因 此 尝试 进行 隐 式 转 
换 ， 自 动 调用 D2C 隐 式 转换 函数 完成 ClassD 到 ClassC 的 转换 (第 一 次 隐 式 转换 )。 在 执行 
printC 方法 时 ， 发 现 传人 的 参数 类 型 为 ClassB ， 而 def printC (c:ClassC) 方法 接受 的 参数 是 
ClassC， 类 型 不 匹配 ， 所 以 编译 器 又 尝试 进行 隐 式 转换 ， 自 动 调用 B2C 隐 式 转换 函数 ， 将 
ClassB 转换 成 ClassC 〈 第 二 次 隐 式 转换 ) 。 在 完成 这 两 次 隐 式 转换 后 ， 程 序 得 以 顺利 执行 。 


8.6 | Spark 源码 中 的 隐 式 转换 使 用 


6 隐 式 转换 函数 ) 


下 面 的 代码 来 源 于 SQLContext ( org. apache. spark. sql. SQLContext. scala) , SQLContext iff 
过 SparkContext 与 集群 进行 交互 ， 它 是 Spark 处 理 结构 化 数据 的 人口， 通过 SQLContext 可 以 
创建 DataFrame 并 执行 SQL 语句 。SQLContext 中 有 一 个 stringRddToDataFrameHolder 隐 式 转换 
函数 该 隐 式 转换 函数 将 RDDL String | 转换 为 单列 的 DataFrame 。 


// 隐 式 转换 函数 ,该 隐 式 转换 函数 将 RDD[ String | 转换 成 单列 的 DataFrame 
implicit def stringRddToDataFrameHolder( data; RDD[ String | ) ; DataFrameHolder = | 
val dataType = StringType 


val rows = data. mapPartitions | iter => 
val row = newSpecificMutableRow( dataType : ; Nil) 
iter. map |v => 
row. update(0 , UTF8String. fromString( v) ) 


row; InternalRow 


| 
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| 
DataFrameHolder( 
self. internalCreateDataFrame( rows , StructType( StructField("_1" ,dataType) ::Nil) ) ) 


| 


下 面 的 隐 式 类 代码 也 来 源 于 SQLContext， 其 作用 是 将 字符 串 转换 成 SparkSQL 中 的 Col- 
umn 对 象 。 


© 


// 将 字符 串 转 换 成 SparkSQL 中 的 Column 对 象 ,代码 中 的 ColumnName 继承 自 Column 
implicit classStringToColumn( val sc:StringContext) | 
def $(args: Any * ) :ColumnName = | 


newColumnName( sc. s( args :_* )) 


| 


} 
8.6.3 隐 式 参数 


下 面 的 代码 来 源 于 RDD (org. apache. spark. rdd. RDD. scala) ， 单 例 对 象 RDD 中 有 一 个 
隐 式 转换 参数 rddToPairRDDFunctions， 函 数 参 数 中 包含 隐 式 参数 ， 其 作用 是 将 键 / 值 对 RDD 
[(K,V)] 转 换 成 PairRDDFunctions[K,V] ， 这 样 便 可 以 调用 PairRDDFunctions 中 的 reduce- 
ByKey 等 方法 。 


// 隐 式 转 换 函 数 rddToPairRDDFunctions, 将 RDD[ (K,V)] 隐 式 转换 为 PairRDDFunctions[ K, V ] 
// 该 隐 式 转换 函数 有 3 个 隐 式 参数 ,分 别 是 kt, vt 及 ord 
// 在 函数 调用 之 前 应 该 显 式 或 隐 式 地 提供 对 应 类 型 的 隐 式 对 象 
implicit def rddToPairRDDFunctions[ K,V| (rdd: RDD[ (K,V) ] ) 

(implicit kt; ClassTag[ K ] , vt: ClassTag[ V ] , ord; Ordering[ K ] = null) ; PairRDDFunctions[ K, 
Vj = 

newPairRDDFunctions ( rdd ) 

| 


8.7 R 
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换 在 Scala 语言 中 可 谓 无 处 不 在 ， 在 实际 项 目 中 其 应 用 也 十 分 广泛 ， 可 以 说 隐 式 转换 是 学 习 
Scala 语言 的 必 备 技能 。 在 本 章 中 重点 介绍 了 隐 式 转换 函数 、 隐 式 类 、 隐 式 参数 及 隐 式 对 象 
同时 对 类 型 证 明 及 上 下 文 界定 、 视 图 界定 的 实现 原理 进行 了 分 析 。 除 此 之 外 ， 还 重点 介绍 了 


Scala 语言 的 隐 式 转换 规则 ， 说 明了 什么 时 候 会 发 生 隐 式 转换 ， 以 及 什么 时 候 又 不 会 发 生 隐 


式 转换 。 在 本 章 最 后 ， 也 给 出 了 Spark 源码 中 隐 式 转换 的 使 用 ， 不 难 发 现 ， 在 实际 项 目 中 隐 
式 转换 也 可 谓 无 处 不 在 。 
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尽管 并 发 程序 设计 原理 已 经 被 提出 了 很 长 时 间 ， 但 只 有 在 多 核 处 理 器 出 现 后 的 最 近 几 
年 ， 它 才 获 得 了 很 多 向 前 发 展 的 推力 。 什 么 是 并 发 程序 ?将 一 个 程序 视 为 同时 执行 并 通过 某 
种 方式 协调 的 一 系列 计算 操作 ， 称 为 并 发 程序 。 实 现 一 个 能 够 运行 的 并 发 程序 比 一 个 顺序 运 
行 的 程序 要 困难 得 多 。 既 然 并 发 编程 有 8 如 此 多 的 困难 ， 为 什么 还 需要 并 发 编程 呢 ? 

并 发 程序 有 很 多 优点 。 首 先 ， 并 发 处 理 任务 可 以 提高 程序 的 性 能 ， 整 个 程序 不 再 由 单个 
处 理 器 执行 ,不 同 的 计算 操作 可 以 由 不 同 的 独立 的 处 理 器 执行 ， 这 样 使 程序 运行 得 更 快 。 随 
着 多 核 处 理 器 的 发 展 ， 并 发 程序 设计 越 来 越 受 到 关注 。 

其 次 ， 并 发 程序 设计 模型 可 以 实现 更 快速 的 IO 操作 。 对 于 LO 密集 型 的 操作 来 说 ， 这 
可 以 提高 吞吐 量 。 并 发 编程 可 以 在 多 任务 处 理 中 ， 以 异步 的 方式 并 行 执 行 ， 而 不 需要 同步 等 
待 。 例 如 网 页 设计 中 的 AJAX 技术 等 ， 这 种 技术 使 浏览 网 页 更 友好 ， 提 升 用 户 体 验 。 因 此 ， 
并 发 编程 技术 能 够 切实 地 提高 程序 的 交互 操作 性 。 

最 后 ， 并 发 编程 可 以 将 复杂 的 线性 执行 的 任务 ， 划 分 成 更 小 的 独立 的 任务 ， 这 些小 任务 
独立 执行 ， 简 化 了 程序 实现 的 难度 和 维护 工作 的 困难 。 并 发 编程 已 经 变 得 越 来 越 重要 ， 因 此 
对 于 每 一 位 软件 开发 者 来 说 ， 掌 握 并 发 程序 设计 非常 重要 。 

相 比 传统 的 并 发 设计 模型 而 言 ，Scala 通过 实现 Actor 模型 来 进行 并 发 编程 。 

本 章 会 先 介 绍 Scala 原生 的 Actor 模型 ( 稍 后 的 架构 篇 中 会 介绍 基于 Scala Actor 模型 实 
SAY Akka 框架 ) Scala 语言 提供 了 原生 的 Actor 并 发 模型 ， 并 向 用 户 给 出 了 简单 易 用 的 用 
户 接 口 。 在 Java 中 提供 了 对 并 发 的 支持 ， 虽 然 这 样 的 支持 能 够 满足 基本 的 并 发 需求 ， 但 在 
使 用 中 发 现 ， 随 着 程序 变 得 越 来 越 大 、 越 来 越 复 杂 ， 使 用 该 模型 变 得 越 来 越 不 容易 。Scala 
语言 中 增加 了 Actor 并 发 模型 ， 这 无 疑 是 对 Java 并 发 不 足 进行 的 补充 ， 因 为 Actor 提供 了 一 
种 易于 使 用 的 并 发 模型 ， 并 且 能 够 避免 Java 原生 并 发 模型 所 遇 到 的 困难 。 

Actor 模型 在 并 发 编程 上 面 的 优异 表现 ， 使 其 在 并 发 编程 中 获得 了 广泛 的 运用 ， 本 章 将 
会 通过 讲解 Scala 中 的 Actor 模型 ， 逐 渐 深 入 Scala 中 ， 以 Actor 模型 为 中 心 的 并 发 编程 。 在 
本 章 的 最 后 通过 并 发 编程 实例 ， 讲 解 Actor 并 发 编程 模型 。 

请 读者 们 注意 ，Scala 中 的 Actor 模块 在 Scala 2. 10 版 本 中 已 经 被 标记 为 过 时 ， 在 之 后 的 
WAF, Actor 模块 已 被 移 除 ， 开 发 者 如 果 使 用 的 是 Scala 2. 10 之 后 的 版 本 ， 应 该 选择 Akka 
框架 中 的 Actor。 其 实 ，Akka 框架 是 建立 在 Scala Actor 模型 之 上 的 ， 和 Scala 中 的 Actor 异 曲 
同 工 。 


> 


( 


语言 基础 与 开发 实战 


| Section | 


Scala 的 Actor 模型 简介 


Actor 模型 在 并 发 编程 中 是 比较 常见 的 一 种 模型 ， 很 多 开发 语言 都 提供 了 原生 的 Actor 模 
型 实现 ， 例 如 Erlang, Scala 等 。Actor 可 以 看 作 是 一 个 个 独立 的 实体 ， 它们 之 间 是 毫 无 关联 
的 ， 但 是 它们 可 以 通过 消息 来 通信 。 一 个 Actor 收 到 其 他 Actor 的 信息 后 ， 可 以 根据 需要 做 
出 各 种 响应 ， 消 息 的 类 型 可 以 是 任意 的 ， 消 息 的 内 容 也 可 以 是 任意 的 ， 它 只 提供 接口 服务 ， 
而 不 必 了 解 具 体内 容 是 如 何 实现 的 。 一 个 Actor 如 何 处 理 多 个 Actor 的 请 求 呢 ? 它 先 建立 一 
个 消息 队列 ， 每 次 收 到 消息 后 ， 就 放 人 队列 ， 而 它 每 次 也 从 队列 中 取出 消息 体 来 处 理 。 为 了 
使 这 个 操作 持续 下 去 ， 通 常 都 使 得 这 个 过 程 是 循环 的 ， 让 Actor 可 以 时 刻 处 理发 送 来 的 
消息 。 

Actor 模型 提供 了 一 种 不 共享 任何 数据 、 依 赖 消息 传递 的 模型 。Actor 是 一 个 类 似 于 线程 
的 实体 ， 它 有 一 个 用 来 接收 消息 的 邮箱 ， 类 似 于 Java 中 的 Runnable 任务 接口 。 在 并 发 编程 
H, Actor 模型 相对 于 使 用 共享 数据 和 锁 模 型 的 实现 来 说 ， 推 新 和 使 用 都 更 加 容易 。 

在 共享 数据 和 锁 模 型 中 编写 多 线程 程序 ， 程 序 中 的 Ná 


每 一 点 ， 都 必须 推断 要 修改 或 访问 的 数据 是 否 可 能 会 被 

其 他 线程 修改 或 访问 ， 以 及 在 这 一 点 上 握 有 哪些 锁 ， 程 人 
序 每 一 次 运行 都 必须 推断 出 它 将 要 握 有 哪些 锁 ， 并且 确定 这 

样 不 会 死 锁 。 虽 然 从 Java 5 开始 引入 了 java. util. concurrent 

并 发 工具 包 , 但 是 该 工具 包 依然 是 基于 共享 数据 和 锁 模 Ná Ká 
型 的 ， 没 有 从 根本 上 解决 使 用 这 种 模型 潜在 的 困难 。 因 

此 在 设计 并 发 软件 时 ，Actor 模型 是 首选 工具 ， 因 为 它 可 S 


以 避 开 死 锁 和 争 用 的 状况 ， 而 这 两 种 情形 在 使 用 共享 数 
据 和 锁 模 型 的 时 候 是 很 容易 遇 到 的 。 
Actor 模型 在 并 发 编程 上 面 的 优势 ， 使 其 在 并 发 编程 
中 获得 了 广泛 的 运用 。Actor 之 间 传 递 消息 模型 如 图 9-1 所 示 。 


| Section | 


图 9-1 Actor 通信 模型 


Scala Actor 的 构建 方式 


在 Scala 中 定义 自己 的 Actor 有 很 多 不 同 的 方式 ， 最 常用 的 方式 是 继承 Actor 类 和 使 用 
Actor 工具 方法 。 本 节 将 通过 实例 的 方式 讲解 Scala Actor 的 几 种 构建 方式 。 


继承 Actor 类 


使 用 Actor 最 直接 的 方法 是 继承 Actor 类 ， 并 重 写 act 方法 。 例 9-1 是 一 个 直接 通过 继承 
Actor 构建 的 简单 示例 
【 例 9-1】 通 过 继承 构建 Actor 示例 。 
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1. object Demo extends Actor | 

2 defact( ) : Unit = } 

3 println( " helloActor!" )// Actor 启动 自动 调用 act 方法 ,打印 出 "hello Actor" 
4 | 

5. def main( args: Array[ String | ) ; Unit = | 

6 Demo. start( ) 

7 

8 


| 


在 这 个 示例 中 ， 通 过 在 main 方法 中 调用 Actor 的 start 方法 来 启动 Actor， 这 与 线程 启动 
方式 类 似 。 执 行 结果 如 图 9-2 所 示 。 


“C:\Program Files\Java\ jdkl. 6. 0 43\bin\java” ... 
helloActor! 


Al 9-2 通过 继承 Actor 对 象 并 调用 start 方法 执行 结果 


Bez 28 Actor 工具 方法 ) 


除了 通过 继承 来 实现 自己 的 Actor， 也 可 以 通过 使 用 Actor 中 提供 的 名 为 actor 的 工具 方 
法 来 创建 自己 的 Actor， 例 9-2 是 一 个 简单 的 示例 。 
【 例 9-2】 通 过 actor 工具 方法 构建 Actor 示例 。 


import scala. actors. Actor. _ 
object Demo | 
def main( args; Array[ String | ) :Unit = | 
val myActor = actor | 


1 
2 
3 
4 
Ja println( "hello Actor!" ) 
6 
7 
8 


| 


在 这 个 示例 中 ， 通 过 val 定义 一 个 由 执行 actor 工具 方法 产生 的 Actor， 该 actor 在 定义 后 
立即 启动 ， 无 须 调用 start 方法 。 执 行 结果 如 图 9-3 所 示 。 


“C:\Program Files\Java\jdk1. 6.0 43\bin\java” 


hello Actor! 


图 9-3 actor 方法 创建 Actor 并 自动 启动 


Actor 启动 之 后 ， 都 是 独立 运行 的 ， 如 果 想 要 多 个 Actor 之 间 相 互 协作 来 完成 一 项 复杂 的 
任务 ， 那 么 多 个 Actor 之 间 如 何 协同 工作 呢 ? 它们 如 何在 不 使 用 共享 内 存 和 锁 的 前 提 下 通信 
呢 ? 实际 上 Actor 之 间 通 过 ! 方式 发 送 消息 ， 如 : myActor! “hello”， 表 示 本 Actor 问 名 为 


om 
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myActor 的 Actor 发 送 一 条 “hello” 的 消息 ， 该 消息 一 直 保 存在 myActor 的 邮箱 中 ， 保 持 未 读 
的 状态 。Actor 通信 将 在 9. 4 一 节 中 详细 阐述 。 


EEA Actor 的 生命 周期 


Actor 是 具有 生命 周期 的 对 象 ， 自 Actor 启动 到 Actor 结束 ， 它 始终 会 在 不 同 的 状态 之 间 
切换 。 本 小 节 将 介绍 Actor 生命 周期 中 的 不 同 状态 及 回调 函数 。 


OS start WHS RHE 


在 Scala 的 Actor (KA, Reactor 是 所 有 Actor trait 的 父 级 trait。 扩 展 这 个 trait 可 以 定义 
Actor， 其 具有 发 送 和 接收 消息 的 基本 功能 。Reactor 的 行为 通过 实现 其 act 方法 来 定义 。 一 
且 调 用 start 方法 启动 Reactor， 这 个 act 方法 便 会 执行 ，start 方法 返回 Reactor 对 象 本 身 。 
start 方法 是 具有 等 需 性 的 ， 也 就 是 说 ， 在 一 个 已 经 启动 了 的 Actor 对 象 上 调用 它 (start 方 
法 ) 是 没有 作用 的 。 例 9-3 是 一 个 简单 的 例子 ， 展 示 start 方法 的 等 需 性 。 

【 例 9-3】 start TANTS PEA Bi, 


1 object Test extends Actor | 
2 def main( args: Array[ String | ) ; Unit = | 
3 println( Test. getState ) 

4 Test. start( ) /调用 start 方法 
5, Test. start( ) 人 /再 次 调用 start 方法 
6 

7 

8 

9 


Thread. sleep(5000) // 2 FE HEIR 5S 
println( Test. getState ) 


| 
def act( ) :Unit = | 


10. println( Test. getState ) 

11. println( " act is excuted" ) 
12. | 

13, 


FED] 9-3 中 两 次 调用 Test 这 个 Actor 的 start 方法 ， <terminated> Test$ [Scala Application] 
act 方法 只 被 执行 一 次 。 在 终端 中 输入 上 面 的 代码 ， 运 行 New 
结果 如 图 9-4 所 示 。 oe ead 
“4 Reactor 的 act 方法 完整 执行 后 ，Reactor 则 随即 终 Terminated 
止 执 行 。Reactor 也 可 以 显 式 地 使 用 exit 方法 来 终止 自身 。 
exit 方法 的 返回 值 类 型 为 Nothing， 因 为 它 总 是 会 抛 出 异 
常 。 这 个 异常 仅 在 内 部 使 用 ， 且 不 会 去 捕捉 这 个 异常 。 
一 个 已 终止 的 Reactor 可 以 通过 它 的 restart 方法 使 它 重新 启动 。 对 一 个 未 终止 的 Reactor 


9-4 start TRAE PERE 
输出 结果 
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调用 restart 方法 ， 则 会 抛 出 MegalStateException 异常 。 重 新 启动 一 个 已 终止 的 Actor， 则 会 使 
它 的 act 方法 重新 运行 。 


| Actor 的 不 同 状态 ) Ə 


Reactor 定义 了 一 个 getState 方法 ， 这 个 方法 可 以 将 Actor 当前 的 运行 状态 作为 Actor. State 
枚 举 的 一 个 成 员 返回 。 一 个 尚未 运行 的 Actor 处 于 Actor. State. New 状态 。 一 个 能 够 运行 并 且 
不 在 等 待 消息 的 Actor 处 于 Actor. State. Runnable 状态 。 一 个 已 挂 起 ， 并 正在 等 待 消息 的 Ac- 
tor 处 于 Actor. State. Suspended 状态 ; 一 个 已 终止 的 Actor 处 于 Actor. State. Terminated 状态 。 
例 9-4 演示 Actor 运行 状态 ， 并 在 终端 上 打印 出 来 。 

【 例 9-4】 Actor 的 运行 状态 示例 。 


1. object Test extends Actor | 

2 def main( args; Array[ String ] ) ; Unit = | 

3 println( Test. getState) /输出 Actor 的 初始 状态 
4 Test. start( )// 调 用 start 方法 
5, Test. start () 
6 

i 

8 

9 


Thread. sleep( 5000) /线程 睡眠 SS 
println( Test. getState) 人 /再 次 打印 出 Actor 的 状态 
Test. restart( )// 调 用 Actor 的 restart 方法 


| 


10. def act( ) :Unit = | 

11. println( Test. getState) /打印 出 Actor 状态 
12. println( " act is excuted" ) 

13. | 

14. | 


在 终端 中 输入 上 面 的 程序 2 程序 执行 结果 如 图 9-5 «terminated> Test$ [Scala Application] 
所 示 o New 
从 程序 的 执行 结果 可 以 看 出 ， 在 调用 Actor 的 start 方法 A e ag 


ZA, Actor 是 一 个 New 状态 ， 对 应 枚 举 Actor. State. New 成 Lai thang 
员 ， 当 调用 了 start 方法 启动 了 Actor ZA, Actor 状态 变 为 act is excuted 
Runnable ， 对 应 枚 举 Actor. State. Runnable fH, Actor 执行 完 
act 方法 后 自动 退出 ， 退 出 后 打印 出 状态 为 Terninated, 该 值 图 9-5 Actor 程序 状态 输出 结果 
对 应 枚 举 Actor. State. Terminated 值 ， 然 后 再 次 调用 该 Actor 的 act 方法 ， 可 以 看 到 程序 再 次 执行 了 
act 方法 。 

经 过 上 面 的 测试 ， 可 以 总 结 Scala 中 Actor 的 生命 周期 为 : 当 调 用 start 方法 启动 Actor 
Hf, start 调用 doStart 方法 ， 在 doStart 方法 中 ， 程 序 调用 preAct 方法 ， 紧 接着 调用 act 方法 ， 
而 act 方法 是 实现 Actor 时 必须 重 写 的 方法 。 当 执行 完 act 方法 后 ，Actor 自然 退出 ， 当 然 也 
可 以 调用 Actor 的 exit 方法 ， 该 方法 总 返回 Nothing, “4 Actor 完全 退出 后 ， 可 以 调用 restart 
方法 重新 启动 Actor 运行 。 
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Actor 之 间 的 通信 


Actor 之 间 发 送 消息 


到 目前 为 止 所 创建 的 Actor 都 是 独立 运行 的 ， 但 是 它们 该 如 何 协作 工作 呢 ? 它们 是 如 何 
在 不 使 用 共享 内 存 和 锁 的 前 提 下 通信 呢 ? KK, Actor 之 间 是 通过 相互 发 送 消息 的 方式 来 通 
信 的 。 可 以 使 用 ! 方法 来 发 送 消息 ， 例 如 ， helloActor! “hello”， 将 向 helloActor 的 信箱 中 发 
送 “hello” 消 息 ，helloActor 的 receive 方法 通过 PartialFunction 偏 函 数 来 匹配 收 到 的 消息 类 
型 。 对 于 邮箱 中 的 每 一 个 消息 ，receive 方法 都 会 先 调用 传人 的 偏 函 数 的 isDefinedAt 方法 ， 
来 决定 它 是 否 与 某 个 样本 匹配 ， 然 后 处 理 该 消息 。 也 可 以 使 用 !! 方法 来 发 送 消息 ， 其 立即 
返回 一 个 Future 实例 。Future 是 Future Trait 的 一 个 实例 ， 即 获取 到 一 个 Send - With - Future 
消息 的 响应 的 句柄 。 

该 Send - With - Future 消息 的 发 送 方 可 以 通过 使 用 Future 来 等 待 返回 的 结果 。 例 如 ， 使 
用 val fut =a !! msg 语句 发 送 消息 ， 人 允许 发 送 方 等 待 Future 的 结果 。 可 以 将 前 面 的 fut 赋值 
给 一 个 常量 : val res =fut( ) ， 这 里 的 res 是 一 个 Future 的 实例 ， 代 表 将 来 某 个 时 刻 可 能 返回 
的 值 。 另 外 ， 一 个 Future 可 以 在 不 阻塞 的 情况 下 ， 通 过 isSet 方法 来 查询 并 获知 其 结果 是 否 
HY FA Send - With - Future 的 消息 并 不 是 获得 Future 的 唯一 方法 。Future 也 可 以 通过 future 
方法 计算 获得 。 如 下 所 示 future 计算 体会 被 并 行 地 启 动 运行 ， 并 返回 一 个 Future 实例 作为 
其 结果 : 


val fut = future {body | 
fut() /人 等待 future 


还 有 一 种 发 送 消息 的 方式 是 !? ， 使 用 这 种 方式 ， 线 程 将 阻塞 直到 结果 返回 。 


Actor 接收 消息 


自 定 义 的 Actor 能 够 通过 基于 Actor 的 标准 接收 操作 (例如 receive 方法 等 ) 来 取 回 
Future 的 结果 ， 使 得 Future 实例 在 Actor 上 下 文中 变 得 特殊 。 此 外 ， 还 可 以 通过 使 用 基于 事 
件 的 操作 (react 方法 和 reactWithin 方法 ) ， 这 使 得 一 个 Actor 实例 在 等 待 一 个 Future 实例 结 
果 时 不 用 阻塞 它 的 底层 线程 。 

receive 方法 将 选 定 邮箱 中 第 一 个 让 isDefiendAt 返回 true 的 消息 ， 将 这 个 消息 传递 给 偏 
函数 的 apply 方法 ，apply 方法 将 具体 处 理 这 个 消息 。 如 果 邮 箱 中 没有 让 isDefinedAt 方法 返 
El true 的 消息 ， 则 被 调用 的 Actor 将 会 阻塞 ， 直 到 收 到 匹配 的 消息 。 例 9-5 为 通过 ! 发 送 消 
息 和 通过 receive 接收 匹配 消息 进行 处 理 的 示例 。 

【 例 9-$】 Actor 发 送 和 接收 消息 示例 。 
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1. import actors. _, Actor. _ 

2. objectDealMessage | 

3. def main( args: Array| String | ) ; Unit = | 

4. val caller = self © 
5. val accumulator = actor | 

6. var continue = true 

As var sum =0 

8. loopWhile( continue) |//loopWhile 代码 块 中 代码 循环 执行 
9. reactWithin( 10000) | //reactWithin 方法 ,间隔 时 间 10s 
10. case number: Int => sum + = number// 做 累加 

11. case TIMEOUT =>// 超 时 ,设置 continue 为 false 

12. continue = false 

13. caller! sum// 向 调用 方 发 回 计 算 结 

14. | 

15. | 

16. | 

17. accumulator! 2// Rik BF 2 

18. Thread. sleep( 5000) /线程 睡眠 5s 

19. accumulator!" hello" // Rik FF $ hello 

20. Thread. sleep( 5000) /线程 睡眠 5s 

21. accumulator! 9// 发 送 数字 9 

22% receiveWithin(60000) {//receiveWithin 方法 ,设置 超时 时 间 为 60s 
23. case result => println( " result is:" + result) 

24. | 

25. | 

26. } 


执行 结果 如 图 9-6 所 示 。 


“C:\Program Files\Java\jdk1. 6.0_43\bin\java” ... 


result is: 11 


+ 
图 9-6 向 Actor 发 送 数字 等 待 计算 结果 


在 例 9-5 中 ， 在 main 方法 里 使 用 actor 工具 方法 构建 了 一 个 Actor 实例 ， 该 实例 在 构建 
好 的 时 候 就 立即 执行 reactWithin 方法 ，reactWithin 将 会 在 一 定 的 terminal 时 间 内 查看 自己 的 
邮箱 ， 匹 配 每 一 个 case 分 六， 然后 进行 相应 的 逻辑 处 理 。 

Actor 子 系统 会 管理 一 个 或 多 个 原生 线程 供 自己 使 用 ， 只 要 使 用 Actor， 就 不 需要 关心 它 
们 和 线程 之 间 的 对 应 关系 是 怎样 的 。 该 子 系统 也 支持 反 过 来 的 情形 ， 即 每 个 原生 线程 也 可 以 
被 当 作 Actor 来 使 用 A 不 过 不 能 直接 使 用 Thread. current , 因为 它 不 具有 必要 的 方法 。 应 该 使 
用 Actor. self 来 将 当前 线程 当 作 Actor 来 看 待 。 

在 例 9-5 中 的 self 即 代 表 当 前 的 main 线程 ， 此 时 main 线程 被 当成 Actor 来 使 用 。self 向 
accumulator 发 送 消息 ，accumulator 收 到 消息 匹配 样本 进行 计算 ， 最 后 receive 方法 收 到 并 打 
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印 出 计算 结果 。 由 于 receive 在 没有 匹配 到 消息 的 时 候 将 会 阻塞 ， 此 在 这 里 使 用 receive- 
Within 方法 指定 一 个 以 毫秒 记 的 超时 时 限 。 为 了 节约 线程 的 创建 和 切换 ，Scala 提供 了 另外 
一 个 方法 react 7 用 来 提高 性 能 。 


| Section | 
使 用 react 重用 线程 提升 性 能 


在 9. 4 一 节 中 提 到 receive 方法 会 一 直 阻 蹇 ， 直 到 消息 的 到 来 。 然 而 Actor 是 构建 在 普通 
的 Java 线程 之 上 的 ， 每 一 个 Actor 都 要 得 到 自己 的 线程 ， 这 样 act 方法 才 有 机 会 执行 。 

Scala 的 Actor 系统 同样 提供 了 react 方法 。 和 receive 方法 一 样 react 方法 也 是 一 个 偏 函 
数 。 不 同 的 是 react 在 找到 并 处 理 消 息 后 并 不 返回 。 它 的 返回 类 型 是 Nothing， 由 于 react 不 需 
要 返回 ， 因 此 不 需要 保存 当前 线程 的 调用 栈 ， 而 将 线程 的 资源 释放 以 供 另 一 个 Actor 使 用 。 
如 果 程 序 中 的 每 一 个 Actor 都 使 用 react， 而 不 是 使 用 receive 方法 ， 理 论 上 只 需要 一 个 线程 就 
能 满足 程序 全 部 Actor 的 需要 。 例 9-6 是 一 个 使 用 react 的 示例 。 

【 例 9-6】 react 的 使 用 示例 。 


1. object Demo extends Actor | 

2 def act( ) :Unit = {//act 中 调用 react 

3 react | 

4 case (num; Int,actor; Actor) => actor! num * num// 计 算数 字 的 平方 ,并 返回 结果 
5. case msg => println( " not a Integer" ) 

6 | 

7 | 

8 def main( args: Array[ String | ) :Unit = | 

9 Demo. start 

10. Demo! (7,self) 

11. self. receive | 

12. case msg => println(" 收 到 结果 :" + msg)// 打 印 收 到 的 结果 
13. | 

14. } 

lS |i 


运行 效果 如 图 9-7 所 示 。 


“C:\Program Files\Java\jdkl. 6.0 43\bin\java” 


7 的 平方 为 : 49 


图 9-7 act 方 法 中 调用 react 方法 重用 线程 


程序 中 的 act 方法 ， 在 计算 完成 之 后 将 退出 ， 为 了 让 act 保持 运行 不 退出 可 以 使 用 Loop， 
在 Actor 库 中 ，Loop 用 来 重复 执行 一 个 代码 块 。 为 了 看 到 loop 代码 块 中 的 确 是 重复 执行 ， 并 
看 清楚 每 次 react 方法 执行 完成 之 后 释放 线程 ， 这 里 使 用 println 打印 出 当前 执行 的 线程 的 纺 
号 。 重 写 后 的 代码 如 例 9-7 所 示 。 重 写 后 的 代码 如 例 9-7 所 示 。 
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【 例 9-7】 act 方法 中 使 用 Loop 示例 。 


1. import scala. actors. Actor 

2. class Demo extends Actor | 

3 def act( ) ; Unit = {//act 中 调用 react © 
4 loop {//lo0p 代码 段 中 的 代码 将 重复 执行 

println('" ThreadId;" + Thread. currentThread( ). getId) 

0 react | 

7 case (num; Int) => println( num + "的 平方 为 :" + num * num) 
8 case msg => println("not a Integer" ) 

9 | 

10. 

11. | 

B i 

13. object Demo} 

14. def main( args: Array[ String] ) | 

15. val a = new Demo 

16. a. start( ) 

17. al (7) 

18. a!" Demo" 

19. } 

20 


运行 结果 如 图 9-8 所 示 。 


“C:\Program Files\Java\jdk1. 6. 0_43\bin\java” 
ThreadId: 14 
7 的 平方 为 : 49 


ThreadId: 11 
not a Integer 
ThreadId:15 


图 9-8 在 loop 块 中 运行 代码 


从 执行 的 结果 分 析 ，Demo 启动 时 ， 执行 act 方法 的 线程 编号 是 14， 当 向 Demo 这 个 
Actor 发 送 数字 “7” 时 ，act 方法 中 的 react 偏 函 数 接收 并 匹配 打印 出 数字 “7” 的 平方 ， 这 
时 执行 的 线程 编号 是 11。 再 次 发 送 “Demo” 字 符 串 ， 打 印 出 “not a Integer” 信 息 ， 此 时 执 
行 的 线程 编号 是 15。 从 执行 的 结果 可 以 验证 ，react 方法 在 执行 完成 之 后 会 释放 线程 ， 供 其 
他 Actor 使 用 ， 要 再 次 执行 ， 需 重新 获取 线程 ， 这 是 react 方法 复 用 线程 以 提升 性 能 的 关键 。 


9.6 | Channel 通道 


Channel 代表 到 某 个 实体 的 连接 通道 ， 例 如 ， 一 个 硬件 设备 、 一 个 文件 、 一 个 网 络 Socket 
或 者 是 一 个 程序 组 件 。 通 过 Channel 可 以 执行 不 同 的 1/0 操作 ， 如 文件 的 读 写 。 
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Channel 可 以 用 来 对 发 送 到 同一 Actor 的 不 同类 型 消息 的 处 理 进行 简化 。Channel 的 层级 
被 分 为 OutputChannel 和 InputChannel。 


9.6.1 OutputChannel 


OutputChannel 用 于 发 送 消息 ， 它 文 持 以 下 操作 : 

1) out! msg。 异 步 地 向 out 方法 发 送 msg, “4 msg 直接 发 送 给 一 个 actor 时 ， 一 个 发 送 
中 的 actor 的 引用 会 被 传递 。 

2) out forward msg。 异 步 地 转发 msg 给 out 方法 。 当 msg 被 直接 转发 给 一 个 actor 时 ， 发 
送 中 的 actor 会 被 确定 。 

3) out. receiver。 返 回 唯一 的 actor， 其 接收 发 送 到 out channel (通道 ) 的 消息 

4) out. send (msg，from)。 异 步 地 发 送 msg 到 out， 并 提供 from 作为 消 息 的 发 送 方 。 


9. 6. 2 InputChannel 


Actor 能 够 从 InputChannel 接收 消息 ， 它 支持 下 列 操 作 : 

1) in. receive {case Patl =>: ; case Pan =>… } (以 及 类 似 的 in. receiveWithin)。 从 in 
接收 一 个 消息 。 在 一 个 输入 channel (通道 ) 上 调用 receive 方法 和 actor 的 标准 receive 操作 
具有 相同 的 语义 。 唯 一 的 区 别 是 ， 作 为 参数 被 传递 的 偏 函 数 具有 PartialFunction[ Msg,R] 类 
型 ， 此 处 R 是 receive 方法 的 返回 类 型 。 

2) in. react | case Patl =>… ; casePatn => … } (以 及 类 似 的 in. reactWithin) 。 通 过 基于 
事件 的 react 操作 ， 从 in 方法 接收 一 个 消息 。 就 像 actor 的 react 方法 ， 返 回 类 型 是 Nothing。 
这 意味 着 此 方法 的 调用 不 会 返回 。 就 像 之 前 的 receive 操作 ， 作 为 参数 传递 的 偏 函数 有 一 个 
更 具体 的 类 型 : PartialFunction[ Msg, Unit ] 。 


创建 和 共享 channel 


Channel 通过 使 用 具体 的 Channel 类 创建 。 它 同时 扩展 了 InputChannel 和 OutputChannel。 
使 Channel 在 多 个 Actor 的 作用 域 (Scope) 中 可 见 ， 或 者 在 消息 中 发 送 该 Channel， 达 到 
Channel 的 共享 。 例 9-8 是 基于 作用 域 共享 的 例子 。 

【 例 9-8】 在 子 Actor 中 使 用 外 部 的 共享 Channel 传递 消息 的 示例 。 


import scala. actors. | Channel, OutputChannel } 
import scala. actors. Actor. _ 
object Demo | 
def main( args; Array[ String] ) ; Unit = | 
actor | 
var out; OutputChannel[ String] = null 
val channel = new Channel[ String] //actor 中 定义 一 个 channel 


out = channel 


Bae Sh ONS AE Bm eae Se lee 
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9. val child = actor | 

10. //actor 工具 方法 返回 一 个 Actor 实例 

11. react | 

12. case msg; String => outlmsg// 问 消息 通道 channel 发 送 收 到 的 msg © 

13. | 

14. | 

15. child!" hello world" //[#] child 发 送 ”hello world” 消息 

16. channel. receive } 

17. case msg => printIn(" msg. length; " + msg. length) /调用 channel 上 的 receiver 77 
法 ,匹配 并 打印 出 收 到 的 消息 的 长 度 

18. | 

19. | 

20. | 

Di 


执行 结果 如 图 9-9 所 示 。 


“C:\Program Files\Java\jdk1. 6. 0 
msg. length:11 


+ 


图 9-9 两 个 Actor 通过 共享 Channel 完成 信息 交换 


注意 : F Actor 对 out (一 个 OutputChannel[ String] ) 具有 唯一 的 访问 权 。 而 用 于 接收 消 
息 的 Channel 的 引用 则 被 隐藏 了 。 人 然而， 必须 要 注意 的 是 ， 在 子 Actor 向 输出 Channel 发 送 消 
息 之 前 ,确保 输出 Channel 被 初始 化 到 一 个 具体 的 Channel, iit Channel KIX “hello world” 
消息 ， 当 使 用 channel. receive 从 Channel 接收 消息 时 ， 因 为 消息 是 String 类 型 的 ， 可 以 使 用 
它 提供 的 length 成 员 。 

另 一 种 共享 Channel 的 可 行 的 方法 是 在 消息 中 发 送 。 如 例 9-9 所 示 。 

【 例 9-9】 在 两 个 不 同 Actor 中 ， 通 过 发 送 Channel， 达 到 共享 Channel 的 目的 的 示例 。 


1. import scala. actors. _ 

2. import scala. actors. Actor. _ 

3h; object Demo4 | 

4. def main( args; Array[ String] ) : Unit = | 

Sh case class ReplyTo( out; OutputChannel[ String | ) 

6. val child = actor | 

ds react | 

8. case ReplyTo( out) = > out ! "hello world" //(# 4 channel 回 发 消息 
9. | 

10. | 

11. actor | 

12. val channel = new Channel| String]// 定 义 channel 
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13. child ! ReplyTo( channel)// 在 消息 中 发 送 channel 
14. channel. receive |//channel 的 receive 方法 
15. case msg => println( " msg. length: " + msg. length)// 打 印 出 消息 长 度 
16. | 


18. | 
19. | 


运行 结果 如 图 9-10 所 示 。 


“C:\Program Files\Java\jdk1. 6. 0_43\ 
msg. length:11 


+ 


9-10 在 不 同 Actor 中 ， 通 过 发 送 Channel 达到 共享 目的 


发 送 Channel 来 达到 共享 的 方式 ， 是 向 目标 Actor 发 送 消息 ， 将 回 写 的 通道 以 消息 的 方 
式 发 送 到 目标 Actor, HER Actor 得 到 回 写 通道 ， 通 过 Channel 上 的 方法 向 通道 中 发 送 消息 ， 
而 持 有 该 Channel 的 Actor 通过 该 Channel 的 receive 或 react 方法 ， 得 到 回 写 的 消息 。 


[ee 同步 和 Future 


在 Scala 的 Actor 体系 中 ， 向 另外 一 个 Actor 发 送 消 息 有 多 种 方式 ， 最 常见 的 是 使 


用 !、1?、!! 这 几 个 方法 。 其 中 ! 方法 发 送 完 消息 ， 就 置 之 不 管 ;!11 发 送 完 消息 ,将 立刻 返回 
一 个 Future 对 象 ， 表 示 对 未 来 可 能 返回 结果 的 一 个 占 位 符 ;1? 发 送 完 消息 将 会 一 直 等 待 返 
回信 息 。! 和 !! 是 典型 的 异步 操作 ， 而 !? 是 典型 的 同步 操作 ， 因 为 这 个 方法 会 一 直 等 待 消 
息 返 回 。 

Future 是 一 个 返回 结果 的 只 读 占 位 符 ， 不 能 被 修改 。 当 future 代码 块 执行 完毕 的 时 候 ， 
会 返回 成 功 或 者 失败 的 结果 填充 到 Future 中 。Future 提供 了 一 个 漂亮 的 方式 提供 并 行 执行 代 
码 的 能 力 ， 高 效 且 非 阻塞 。Future 可 以 并 发 地 执行 ， 提 供 更 快 、 异 步 、 非 阻塞 的 并 发 代码 。 
通常 ，future 和 promise 都 是 非 阻 塞 地 执行 ， 可 以 通过 回调 函数 来 获得 结果 。 但 是 ， 也 可 以 
通过 阻塞 地 方式 串 行 地 执行 Future, 

一 个 Future 代表 一 次 异步 计算 的 操作 。 你 可 以 把 你 的 操作 包装 在 一 个 Future 里 ， 当 你 
需要 结果 的 时 候 ， 只 需要 简单 地 调用 一 个 阻塞 的 get 方法 即 可 。 


DS Scala 并 发 编程 实例 


在 本 节 中 ， 通 过 两 个 实例 讲解 Scala 中 的 并 发 编程 。 第 一 个 实例 通过 Scala Actor 模型 编 
写 一 个 并 发 程序 ， 验 证 Actor 运行 于 独立 线程 之 上 ， 并 通过 发 送 消息 的 方式 从 根本 上 杜绝 共 
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享 变量 。 第 二 个 实例 避 开 Scala Actor 模型 ， 使 用 ExecutorService 的 方式 来 进行 并 发 编程 。 


Scala Actor 并 发 编程 ) 
在 scala 中 ， 通 过 类 似 消 息 的 发 送 和 接收 的 队列 的 方式 ， 来 访问 同一 个 共享 数据 ， 这 样 > 
一 来 ， 当 轮 到 一 个 操作 来 访问 茶 个 数据 的 时 候 ， 不 会 发 生 另 一 个 操作 也 同时 访问 该 数据 的 情 
况 ， 这 样 就 避免 了 资源 争 用 的 问题 及 死 锁 的 发 生 。 下 面 我 们 通过 一 个 小 小 的 实例 来 看 看 scala 
是 怎样 通过 Actor 来 实现 并 发 的 。 如 例 9-10 ras, 在 Actor AY act 方法 中 打印 出 底层 线程 的 
名 称 ， 证 明 每 一 个 Actor 是 独立 的 运行 于 线程 之 上 的 。 
【 例 9-10】 使 用 Scala Actor 进行 并 发 编程 示例 。 


1. import scala. actors. _ 

2. import scala. actors. Actor. _ 

3. object ActorA extends Actor |//7E X actorA 

4. def act() | 

5 println( Thread. currentThread( ). getName) /打印 第 一 个 Actor 线程 名 
6. for (i<-1 to3) | 

TA println( " One:" +i) // 依 次 打印 1 到 3 
8. Thread. sleep(2000) 

9. } 

10. } 

ll. } 

12. object ActorB extends Actor {//7E XC actorB 
13. def act() | 

14. println( Thread. currentThread( ). getName) /打印 第 二 个 Actor 线程 名 
15. for (i<-1 to3) | 

16. println(" Two:" +i) // 依 次 打印 1 到 3 
17. Thread. sleep (2000 ) 

18. } 

19. } 

2000 

21. object Test | 

22, def main( args: Array[ String] ) | 

23. ActorA. start( ) // 启 动 第 一 个 ActorA 
24. ActorB. start( ) // 启 动 第 二 个 ActorB 
25: ' 

26. | 


执行 结果 如 图 9-11 所 示 。 

例 9-10 中 ’ 定义 了 两 个 Actor, TE E eR BCP Op DAL H Actor 的 start 方法 ， 调用 之 后 将 运 
行 Actor 的 act 方法， 在 act 方法 中 打印 出 Actor 工作 的 线程 的 名 称 ， 同 时 循环 打印 1 到 10 个 
数字 。 由 于 每 一 个 Actor 都 是 在 线程 上 独立 工作 的 Ff A Actor 5 Actor 之 间 只 通过 发 送 不 可 
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“C:\Program Files\Java\jdk1. 6. 0_43\b 
ForkJoinPool-1-worker-1 
ForkJoinPool-1-worker-6 

Two: 

One: 

Two: 

One: 


Two: 
One: 


9-11 使 用 Scala Actor 进行 并 发 编程 


变 消息 的 形式 来 相互 沟通 ， 因 此 在 根本 上 杜绝 了 线程 共享 变量 的 产生 ， 也 就 避免 了 资源 的 争 
用 及 死 锁 的 发 生 。 


ExecutorService 并 发 编程 


使 用 Scala Actor 模型 来 编写 并 发 程序 ， 可 以 避 开 锁 机 制 带 来 的 麻烦 ， 更 加 容易 编写 出 强 
健 的 没有 潜在 死 锁 的 程序 。 但 是 如 果 避 开 Scala 中 的 Actor 模型 ， 也 可 以 编写 出 并 发 的 程序 ， 
因为 抛 开 Actor 模型 来 讲 ，Scala 开发 并 发 程序 就 是 建立 在 Java 并 发 模型 之 上 的 。 

在 例 9-11 中 ,将 讲解 Scala 中 抛 开 Actor 模型 进行 的 并 发 编程 。 如 下 所 示 ， 创 建 一 个 
NetWorkService ， 等 待 客户 端的 连接 请 求 ， 并 为 每 一 个 连接 请 求 开辟 一 个 独立 的 线程 ， 为 了 
达到 线程 的 复 用 ， 这 里 使 用 线程 池 。 

【 例 9-11】 通 过 使 用 NetWorkService 实现 并 发 编程 ， 在 线程 池 中 建立 Socket 连接 示例 。 


import java. net. | Socket , ServerSocket | 
import java. util. concurrent. | Executors , ExecutorService | 


classNetworkService( port; Int, poolSize; Int) extends Runnable | //2K7 | java Runnable 


val serverSocket = new ServerSocket( port) /创建 ServerSocket 
val pool; ExecutorService = Executors. newFixedThreadPool ( poolSize ) /创建 线程 池 
def run() | 
try | 
while (true) | 
/阻塞 等 待 连接 
val socket = serverSocket. accept( ) 
pool. execute( new Handler( socket) )// 放 入 线程 池 执 行 
| 
} finally | 
pool. shutdown( )// 关 闭 释 放 线 程 池 
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class Handler( socket :Socket) extends Runnable | 
def message = ( Thread. currentThread. getName( ) +" \n" ). getBytes 
def run() | 
socket. getOutputStream. write (message )// 得 到 socket 的 outputStream, 并 通过 ouputStream 写 S 
消息 
socket. getOutputStream. close( ) /关闭 outputStream 
| 
| 
objectNetworkService | 
def main( args: Array[ String] ) | 
(newNetworkService(8888 ,5 ) ) . run// 调 用 NetworkServive, 线 程 池 大 小 设置 为 5,ServerSocket 
端口 为 8888 
| 
| 


运行 该 程序 ， 在 Linux 终端 中 使 用 nc 服务 测试 程序 。 结 果 如 下 所 示 。 


$nc localhost8888 
pool -1 — thread -1// 线 程 池 1 号 线程 
$nc localhost8888 
pool — 1 — thread -2// 线 程 池 2 号 线程 
$nc localhost8888 
pool -1 — thread -3// 线 程 池 3 号 线程 
$nc localhost8888 
pool — 1 — thread -2// 线 程 池 2 号 线程 ,线程 得 到 复 


从 运行 结果 来 看 ， 在 第 4 次 请 求 时 ， 线 程 池 中 处 理 的 线程 编号 变 成 了 2， 说 明之 前 处 理 
请 求 的 2 号 线程 处 理 完成 任务 之 后 ， 被 放 回 线程 池 中 ， 新 的 请 求 到 达 时 ， 从 线程 池 中 取出 线 
程 再 次 执行 ， 因 此 线程 池 中 的 线程 得 到 复 用 。 


ay 


小 结 


Scala 原生 实现 的 Actor 模型 是 很 多 其 他 重要 的 框架 实现 的 基础 ， 例 如 Akka 的 设计 就 是 
以 Scala Actor 为 模型 来 设计 的 。 

Scala 基于 Actor 的 并 发 编程 所 能 带 来 的 巨大 好 处 是 ， 它 可 以 避 开 锁 机 制 带 来 的 死 锁 和 资 
源 争 用 的 麻烦 ， 并且 大 大 简化 代码 ， 利 用 多 个 处 理 右 并 行 处 理 。 

本 章 首先 介绍 了 什么 是 Actor 模型 。Actor 模型 提供 了 一 种 不 共享 任何 数据 、 依 赖 消息 传 
递 的 模型 。Aetor 是 一 个 类 似 于 线程 的 实体 ， 它 有 一 个 用 来 接收 消息 的 邮箱 ， 类 似 于 Java 中 
的 Runnable 任务 接口 。 在 并 发 编程 中 ，Actor 模型 相对 于 使 用 共享 数据 和 锁 模 型 的 实现 来 
说 ， 推 新 和 使 用 都 更 加 容易 。 

在 9.2 节 和 9.3 节 中 分 别 讲 解 了 Actor 的 构建 方式 和 生命 周期 。 在 Scala 中 创建 Actor 有 
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两 种 方式 ， 第 一 种 是 继承 Actor 类 ， 第 二 种 是 使 用 Actor 工具 方法 。 每 一 个 Actor 都 是 有 生命 
周期 的 独立 的 对 象 ， 在 不 同 的 阶段 会 有 不 同 的 状态 。 
9.4 PDR T Actor 之 间 的 通信 及 消息 的 接收 。Actor 中 有 3 种 发 送 消息 的 方式 。 分 别 


是 !、1?、!11。 其 中 ! 方法 是 典型 的 “fire and forget” 类 型 ， 发 送 完 消息 就 置 之 不 管 ;11! 方法 
立即 返回 一 个 Future 对 象 ，Future 代表 将 来 某 个 时 间 点 返回 的 消息 的 一 个 占 位 符 ;1? 方法 将 
会 一 直 阻 蹇 ， 直 到 消息 返回 。! M! 方法 是 异步 操作 ， 线 程 不 会 阻塞 。 而 !? 是 同步 操作 ， 
线程 将 一 直 阻 塞 直到 消息 返回 。Aetor 中 通过 receive 或 者 react 方法 接收 消息 ，receive 如 果 
没有 匹配 到 消息 ， 底 层 线 程 将 一 直 阻 塞 ， 为 了 提升 性 能 引入 了 react 方法 ，react 方法 没有 返 
回 值 ， 并 且 不 会 阻塞 。 

9.5 节 中 讲 了 使 用 react 接收 消息 ，react 会 释放 线程 ， 达 到 重用 线程 提升 性 能 的 目的 。 
9.6 节 讲 解 了 发 送 消息 使 用 的 Channel， 分 别 讲 了 InputChannel 和 OutputChannel， 以 及 怎样 创 
建 和 共享 Channel。 在 9.7 节 讲 了 Actor 中 的 同步 和 Future。 

9. 8 小 节 通 过 两 个 并 发 编程 实例 ， 分 析 讲 解 如 何 使 用 Scala Actor 进行 并 发 编程 。 


分 布 式 框 架 篇 


为 了 深入 理解 Scala 语言 的 优异 特性 ， 本 书 在 Scala 分 布 式 框架 篇 中 引入 基于 
Scala 语言 的 分 布 式 框架 Akka 与 Kafka 作为 扩展 。 

Akka 是 用 Scala 编写 的 基于 Actor 模型 的 消息 传递 框架 ， 用 于 简化 编写 容错 的 、 
高 可 伸缩 性 的 Java 和 Scala 的 Actor 模型 应 用 。 在 第 10 ~ 12 章 中 ， 详 细 介 绍 了 Akka 
架构 ， 包 括 Akka 的 基本 特性 、 常 用 的 API 使 用 、Akka 分 布 式 环境 的 搭建 、 基 于 Akka 
模型 实现 的 并 行 单词 计数 统计 实例 ， 以 及 Akka 在 Spark 中 的 运用 等 内 容 。 

第 13 章 从 设计 理念 与 基本 架构 入 手 ， 让 读者 从 整体 上 理解 Kafka 作为 消息 系 
统 及 各 种 类 型 的 数据 管道 的 首选 系统 ， 在 大 数据 实时 处 理 分 析 平 台 架 构 中 的 重要 地 
位 ; 第 14 章 主 要 从 核心 组 件 及 核心 特性 角度 来 详细 分 析 Kafka， 以 便 读 者 能 对 
Kafka 的 细 枝 末节 了 如 指 掌 ; 第 15 章 主 要 从 实战 编程 的 角度 入 手 ， 使 读者 能 灵活 
运用 Kafka 来 解决 实际 业务 问题 。 
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Akka 是 一 个 用 Scala 语言 编写 的 库 ， 用 于 简化 编写 容错 的 、 高 可 伸缩 性 的 Java 和 Scala 
的 Actor 模型 应 用 。 它 分 为 开发 库 和 运行 环境 ， 可 以 用 于 构建 高 并 发 、 分 布 式 、 可 容错 、 事 
件 驱 动 的 基于 JVM 的 应 用 ， 使 构建 高 并 发 的 分 布 式 应 用 更 加 容易 。 
Akka 有 两 种 不 同 的 使 用 方式 : 
e 以 库 的 形式 : 在 Web 应 用 中 使 用 ， 放 到 Web - INF/lib 中 或 者 作为 一 个 普通 的 Jar 包 
放 进 classpath, 
© 以 微 内 核 的 形式 : Akka 作为 一 个 独立 的 微 内 核 运行 。 微 内 核 的 目的 是 提供 一 个 捆绑 
的 机 制 ， 可 以 通过 微 内 核 启 动 一 个 应 用 。 为 了 启动 应 用 首先 需要 创建 一 个 Bootable 
类 ， 这 个 类 中 的 startup 和 shutdown 分 别管 理应 用 的 启动 和 关闭 。 
Akka 在 构建 分 布 式 高 并 发 程序 方面 到 底 有 什么 优势 呢 ? 为 什么 要 学 Akka? 
在 程序 语言 的 发 展 和 使 用 过 程 中 ， 人 们 发 现 要 正确 地 编写 出 具有 容错 性 和 可 扩展 性 的 并 
发 程序 是 很 困难 的 ， 究 其 主要 原因 是 使 用 了 错误 的 工具 和 错误 的 抽象 级 别 。Akka 就 是 为 了 
改变 这 种 状况 而 生 的 。 
Akka 通过 使 用 Actor 模型 提升 了 抽象 级 别 ， 为 构建 正确 的 可 扩展 并 发 应 用 提供 了 一 个 更 
好 的 平台 。Akka 使 程序 员 从 易 错 、 易 产生 死 锁 的 锁 模 型 中 解脱 出 来 ， 使 程序 员 将 主要 精力 
放 在 业务 逻辑 的 实现 上 。Akka 在 容错 性 方面 采取 了 “Let It Crash”( 让 它 骨 省 模型 ， 后 面 小 
节 有 介绍 ) 模型 ， 在 容错 上 取得 了 较 好 的 效果 。 现 在 人 们 已 经 将 这 种 模型 用 在 了 电信 行业 ， 
构建 出 “ 自 愈合 ”的 应 用 和 永 不 停机 的 系统 ， 取 得 了 巨大 成 功 。Akka 还 为 透明 的 分 布 式 系 
统 ， 以 及 真正 的 可 扩展 高 容错 应 用 的 基础 进行 了 抽象 ， 使 其 具有 以 下 特点 : 
© 系统 中 的 所 有 事物 都 可 以 扮演 一 个 Actor, 
© Actor 之 间 完 全 独立 。 
o 在 收 到 消息 时 ，Actor 所 采取 的 所 有 动作 都 是 并 行 的， 在 一 个 方法 中 的 动作 没有 明确 
的 顺序 。 
© Actor 有 标识 和 当前 行为 描述 。 
© Actor 可 能 被 分 成 原始 (primitive) 和 非 原始 (non primitive) 类 别 。 
o 非 原始 Actor 有 由 一 个 邮件 地 址 表示 的 标识 。 
o 当前 行为 由 一 组 知识 (acquaintances) (实例 变量 或 本 地 状态 ) 和 定义 Actor 在 收 到 消 
息 时 将 采取 的 动作 组 成 。 
。 消息 传递 是 非 阻 塞 和 异步 的 ， 其 机 制 是 邮件 队列 (mail - queue)。 
e 所 有 消息 发 送 都 是 并 行 的 。 
本 章 将 深入 介绍 Akka 框架 模型 Actor 的 不 同 创建 方式 和 Actor API 的 使 用 。 
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0) Akka 框架 模型 


Akka 框架 的 灵感 来 自 Frlang， 它 能 更 轻松 地 开发 可 扩展 性 ， 实 现 线程 的 安全 应 用 。 虽 
然 大 多 数 流行 语言 的 并 发 基于 多 线程 之 间 的 共享 内 存 ， 使 用 同步 方法 防止 写 争 夺 ， 但 Akka 
提供 的 则 是 基于 Actor 的 并 发 模型 。 

Akka 框架 实现 了 Actor 模型 ， 使 用 Akka 框架 能 够 编写 出 高 容错 性 、 高 可 伸缩 性 的 Actor 
模型 应 用 。 在 Akka 框架 中 ， 所 有 Actor 都 彼此 独立 ， 通 过 邮件 队列 的 机 制 ， 实 现 消息 的 非 
阻塞 和 异步 处 理 。Akka 可 提供 : 

1) 对 并 发 /并 行程 序 的 简单 的 、 高 级 别 的 抽象 。 

2) 异步 、 非 阻塞 、 高 性 能 的 事件 驱动 编程 模型 。 

3) 非常 轻 量 的 事件 驱动 处 理 〈(1GCB 内 存 可 容纳 约 270 万 个 Actor) 。 

在 Akka 框架 中 ，Akka 为 程序 员 提供 了 简单 的 编程 接口 ， 使 用 户 将 主要 精力 放 在 业务 问 
题 的 解决 上 ， 而 将 复杂 的 Actor 通信 、Actor 注册 、 查 找 进 行 了 封装 。 用 户 在 写 自 己 的 Actor 
时 需要 实现 akka. actor. Actor 这 个 接口 。 详 细 的 Actor 编程 ， 将 在 稍 后 的 章节 进行 讲解 。 如 
图 10-1 所 示 是 Akka 消息 通信 模型 。 


Akka://default/user/usera 


rs 
Actor B 


Akka://default/user/userb 


图 10-1 Akka 消息 通信 模型 


借助 Akka 框架 ， 不 需要 再 关心 Actor 注册 和 查找 的 细节 ， 只 需要 写 相 应 的 Actor 实现 业 
FZ ABI], MÆ Actora 想 要 与 ActorB 通信 ， 只 需要 关心 发 送 消 息 和 消息 反馈 的 处 理 ， 而 
不 再 关心 Actor 之 间 通 信 的 细节 。 在 Actora 中 向 ActorB 发 送 消息 ， 只 需要 简单 地 使 用 
ActorB! Message 即 可 完成 消息 的 发 送 。 

在 Akka 框架 中 是 如 何 查 找到 Actor 的 呢 ? 实际 上 在 Akka 框架 中 ， 每 一 个 Actor 都 有 一 
个 唯一 的 URL， 该 URL 的 定义 格式 和 万 维 网 地 址 的 定义 格式 非常 相似 。 每 一 个 Actor 通过 
ActorSystem 和 Context 初始 化 的 时 候 ， 都 会 得 到 自 己 唯一 的 路 径 ’ 路 径 格 式 如 : akka. tcp:// 
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systemName@ ip; port/user/topActorName/otherActorName, JfH. FJ Lia actorSelection ( path ) 
方法 查找 对 应 路 径 的 Actor 对 象 ， 该 方法 返回 该 Actor 的 引用 。 如 图 10-2 所 示 是 Akka 中 
Actor 路 径 命 名 格式 。 


akka.tcp://backend@127.0.0.1:2551/user/simple © 


Wix AkkaSystem ”服务 IP mA 默认 顶级 
名 称 地 址 监管 ”actor 


akka. tcp akka. tcp 协 议 


Actor 名 称 Actor 对 应 路 径 


akka. tcp://backend@127. 0. 
F 0. 1:2551 


backend 


系统 创建 的 名 为 user akka. tcp://backend@127. 0. 


的 监管 Actor 0. 1:2551/user 


akka. tep://backend@127. 0. 
名 为 simple 的 Actor = 0. 1:2551/user/simple 
图 10-2 Actor 命名 格式 


在 得 到 Actor 引用 之 后 ， 就 可 以 发 送 消息 了 。 下 面 将 讲解 Actor 的 几 种 创建 方式 。 


10.2 创建 Actor 


Akka 是 一 个 异步 消息 处 理 框架 ， 提 供 了 简单 方便 的 消息 发 送 和 接收 接口 。 在 本 节 中 ， 
将 介绍 Akka 中 Actor 的 几 种 创建 方式 。 


10.2.1 通过 实现 akka. actor. Actor 来 创建 Actor 类 È 


要 定义 自己 的 Actor 类 ， 需 要 继承 Actor 并 实现 receive 方法 。receive 方法 需要 定义 一 系 
列 case 语句 (类 型 为 PartialFunction[ Any, Unit] ) ， 来 描述 Actor 能 够 处 理 哪些 消息 (使 用 
标准 的 Scala 模式 匹配 ) ， 以 及 实现 对 消息 如 何 进 行 处 理 的 代码 。 例 10-1 是 一 个 简单 的 Akka 
Actor 示例 ， 该 示例 中 通过 继承 akka. actor. Actor 来 构建 Actor, Test 继承 自 Actor， 在 其 
receive 方法 中 匹配 并 打印 信息 。 

【 例 10-1) 实现 Actor Trait 编写 Actor 程序 示例 。 


object Test | 
def main (args; Array| String] ) | 
val _system = ActorSystem(" HelloAkka" ) 
val test =_system. actorOf( Props[ Test] ,name = "test" )// 缺 省 构造 方法 创建 Actor 
test!" just to do it !" 
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_system. shutdown( ) 


6. } 

I 4 

8. class Test extends Actor} 

9. override def receive ; Receive = | 
10. case str; String => println( str) 
11. case _ => 

Do 


运行 结果 如 图 10-3 所 示 。 


“C:\Program Files\Java\jdk1. 7. 0_80\b 
just to do it ! 


Process finished with exit code 0 


图 10-3 通过 继承 Actor 实现 Actor 


请 注意 ，Akka Actor receive 消息 循环 是 “无 穷尽 的 (exhaustive)”， 这 与 Prlang 和 Scala 
的 Actor 行为 不 同 。 在 receive 方法 中 ,需要 提供 一 个 对 它 能 够 接受 消息 的 匹配 规则 ， 如 果 和 希 
望 处 理 未 知 的 消息 需要 像 上 例 一 样 提供 一 个 缺 省 的 case 分 文 ， 和 否则 会 有 
akka. actor. UnhandledMessage (message, sender, recipient) 被 发 布 到 Actor 系统 (ActorSys- 
tem) 的 事件 (EventStream) 中 。 

在 上 面 的 例子 中 ，actorOf 的 调用 将 返回 一 个 实例 的 引用 ， 这 个 引用 是 Actor 的 访问 名 
柄 ， 可 以 用 它 来 与 实际 的 Actor 进行 交互 。ActorRef 是 不 可 变量 ， 与 它 所 代表 的 Actor 之 间 是 
一 对 一 的 关系 。ActorRef 还 是 可 序列 化 的 (serializable) ， 并 且 携 带 网 络 信息 。 这 意味 着 可 以 
在 将 它 序列 化 以 后 ,通过 网 络 进 行 传送 ， 在 远程 主机 上 它 仍然 代表 原 结 点 上 的 同一 个 Actor, 

在 上 面 的 例子 中 ，Actor 是 从 系统 创建 的 。 也 可 以 在 其 他 的 Actor 中 ,使 用 Actor 上 下 文 
(context) 来 创建 ， 其 中 的 区 别 在 于 监管 树 的 组 织 方式 。 使 用 上 下 文 时 当前 Actor 将 成 为 其 
创建 子 Actor 的 监管 者 。 而 使 用 系统 创建 的 Actor 将 成 为 顶级 Actor， 它 由 系统 (内 部 监管 
Actor) 来 监管 。 

例 10-2 使 用 Actor 的 context 创建 Actor 例子 ， 其 实现 和 例 10-1 类 似 的 功能 ， 区 别 在 于 
此 处 构建 了 两 个 Actor， 分 别 是 FirstActor 和 Test， 其 中 FirstActor 由 ActorSystem 创建 ， 而 Test 
则 是 在 FirstActor 内 部 创建 的 ， 此 时 FirstActor 是 Test 的 监管 者 。FirstActor 将 向 Test 发 送 消 
E, Test 接收 匹配 并 打印 出 消息 。 完 整 代码 如 下 所 示 。 

【 例 10-2】 使 用 Actor 的 context 创建 Actor 示例 。 


1. import akka. actor. | Actor，Props ，ActorSystem | 
2. object Test2 | 

Be def main( args: Array[ String] ) | 

4 // 创 建 名 为 HelloAkka 的 ActorSystem 

5 val _system = ActorSystem(" HelloAkka" ) 
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6 // (E ActorSystem 的 actorOf 创建 FirstActor 

T val first =_system. actorOf( Props[ FirstActor] , name =" firstActor" ) 
8 first ! "just to do it !" 

9. println( "First Actor s monitor;" + first. path. parent. getElements. toString ) 
10. } 

Ti 

12. class Test extends Actor | 

13. override def receive; Receive = } 

14. /打印 出 接收 到 的 消息 

15. case str; String => println( "testActor receive msg;" + str) 

16. case _ => 

17. } 

18. | 


19. class FirstActor extends Actor | 


20. //context 方法 创建 Actor 


21. val testActor = context. actorOf( Props[ Test | , "test" ) 
22 /输出 监管 目录 

23: println( "test Actof s monitor;" + testActor. path. parent. getElements. toString) 
24. // Actor 启动 ,preStart 方法 自动 调用 

25: override def preStart( ) : Unit = | 

26. println( " FirstActor s preStart Method was called!" ) 
Die } 

28. override def receive; Actor. Receive = | 

29. case msg => testActor! msg 

30. case _ => 

31. } 

W 


Actor 在 创建 后 将 自动 异步 地 启动 。 当 创建 Actor 时 它 会 自动 调用 Actor trait 的 preStart 
回调 方法 ， 这 是 一 个 非常 好 的 用 来 添加 Actor 初始 化 代码 的 位 置 。 


使 用 非 缺 省 构造 方法 创建 Actor 


如 果 Actor 的 构造 方法 带 参数 ， 那 么 不 能 使 用 actorOf( Props[ TYPE] ) 来 创建 。 这 时 可 以 
用 actorOf 的 非 缺 省 构造 方法 ， 这 样 可 以 用 任意 方式 来 创建 Actor， 例 10-4 是 使 用 非 缺 省 构 
造 方 法 创建 Actor 的 示例 。 

例 10-3 中 ， 有 个 名 为 Test 的 Actor， 其 主 构造 函数 中 带 有 一 个 name 参数 ， 此 时 不 能 以 
actorOf( Props[ TYPE ] ) 方 式 构建 Actor， 必 须 使 用 actorOf 的 非 缺 省 构造 方法 。 此 例 的 目的 是 
展示 使 用 非 缺 省 构造 方法 创建 Actor， 并 向 其 发 送 ”just do it” 消息 ，Test Actor 收 到 并 打印 
消息 。 完 整 代码 如 下 所 示 。 

【 例 10-3】 非 缺 省 构造 方法 创建 Actor 示例 。 


语言 基础 与 开发 实战 


import akka. actor. | Actor, Props, ActorSystem} 
object Test3 | 
def main( args: Array[ String] ) | 
// 创 建 名 为 HelloAkka 的 ActorSystem 
val _system = ActorSystem( " HelloAkka" ) 
// 非 缺 省 构造 方法 创建 ,在 Props 中 new 一 个 Test, 并 传人 参数 "regan" 
val test = _system. actorOf( Props( new Test(" Regan") ) name = "test" ) 
// 发 送 消息 


test ! "just to do it !" 


| 
class Test(name: String) extends Actor | 
override def preStart = | 
// Actor 启动 ,自动 调用 preStart 方法 
println( " preStart was called" ) 
| 
override def receive: Receive = | 
/匹配 打印 消息 
case str: String => println( "actot name; 


case _=>// 非 字符 数据 不 做 处 理 


" +name +" testActor receive msg:" + str) 


| 


运行 结果 如 图 10-4 所 示 。 


“C:\Program Files\Java\jdkl. 7.0 80\bin\java ... 


preStart was called 


actor’ name:Regan testActor receive msg:just to do it ! 


图 10-4， 非 缺 省 构造 方法 创建 Actor 


创建 匿名 Actor ) 


在 从 某 个 Actor 中 派生 新 的 Actor 来 完成 特定 的 子 任 务 时 ， 可 能 使 用 匿名 类 来 包含 将 要 
执行 的 代码 会 更 方便 。 

例 10-4 中 ， 首 先 创 建 出 一 个 名 为 Test4 的 Actor, JÆ Test4 Actor 的 内 部 创建 一 个 匿名 
的 Actor, 并 借助 匿名 Actor 打印 出 Test4 Actor 接收 到 的 字符 信息 。 完 整 代码 如 下 所 示 。 

【 例 10-4】 创 建 匿名 Actor 示例 。 


import akka. actor. | Actor, Props, ActorSystem} 
object Test4 | 
def main( args: Array[ String] ) | 
// 创 建 名 为 HelloAkka 的 ActorSystem 
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5 val _system = ActorSystem( " HelloAkka" ) 

6 // 使 用 ActorSystem 的 actorOf 工厂 方法 创建 Test Actor 
le val test = _system. actorOf( Props[ Test4 ] , name =" test" ) 
8 

9 


// 癌 Test Actor 发 送 消息 
test ! "just to do it !" 


iil, 4 

12. class Test4 extends Actor | 

13), override def preStart = | 

14. // Actor 启动 自动 调用 preStart 方法 

15. println( " preStart was called" ) 

16. } 

17. override def receive; Receive = } 

18. case str; String => 

19. // 使 用 context 的 actorOf 方法 创建 Actor 
20. context. actorOf( Props( new Actor | 

21. // 创 建 匿名 Actor 

22; def receive = | 

23. case msg: String => 

24. // 打 印 出 接收 到 的 消息 

25: println(" receive msg:" + msg) 

26. context. stop( self) // 停 止 匿名 Actor 
Dil } 

28. |) ). forward( str) // 将 收 到 的 str 消息 ,转发 给 创建 的 匿名 Actor 
29. case _=>// 不 做 操作 

30. | 

Jo y 


上 面 代 码 中 的 在 Test4 Actor 的 receive 方法 中 ， 匹 配 字 符 消 息 ， 并 使 用 context 的 actorOf 
工厂 方法 创建 了 一 个 匿名 Actor, actorOf 方法 返回 创建 的 匿名 Actor 的 引用 ActorRef， 因 此 可 
以 使 用 该 ActorRef 上 的 forward 方法 向 其 转发 消息 ， 这 里 直接 将 Test4 Actor 接收 到 的 消息 转 
发 给 创建 的 匿名 Actor, TEA Actor 中 打印 出 转发 过 来 的 消息 ， 然 后 调用 context 的 stop 方 
法 停止 匿名 Actor 自己 。 运 行 结果 如 图 10-5 所 示 。 

全 “C:\Program Files\Java\jdk1. 7. 0_80\bin\java 


pre5tart was called 


receive msg: just to do it |! 


图 10-5 在 Actor 内 部 创建 匿名 Actor 


采用 这 种 方式 时 ， 需 要 小 心地 避免 捕捉 外 层 Actor 的 引用 ， 不 要 在 匿名 的 Actor 类 中 调 
用 外 层 Actor 的 方法 。 这 会 破坏 Actor 的 封装 ， 可 能 会 引入 同步 bug 和 资源 竞争 ， 因 为 其 他 
的 Actor 可 能 会 与 外 层 Actor 同时 进行 调度 ， 目 前 还 没有 一 种 方法 能 够 在 编译 阶段 发 现 这 种 
非法 访问 ， 因 此 需要 特别 注意 。 


语言 基础 与 开发 实战 


10.3 Actor API 


Akka 中 的 Actor 对 外 提供 了 大 量 接口 ， 通 过 这 些 接口 ， 可 以 快速 方便 地 编写 出 基于 
Actor 消息 传递 的 应 用 程序 。 


10. 3.1 Actor trait 基本 接口 


上 一 小 节 中 ， 我 们 已 经 讲 到 Actor 中 的 Receive 方法 ， 它 用 来 实现 Actor 的 行为 ， 如 果 当 
前 Actor 的 行为 与 收 到 的 消息 不 匹配 ， 则 会 调用 unhandled， 它 的 缺 省 实现 是 向 Actor 系统 的 
事件 流 中 发 布 akka. actor. UnhandledMessage (message ,sender,recipient) 。unhandled 代码 片段 


如 下 所 示 。 
1. def unhandled( message: Any) :Unit = | 
2, message match | 
By case Terminated( dead) = throw newDeathPactException( dead ) 
4 case _ => context. system. eventStream. publish ( UnhandledMessage ( message , sender ( ) , 
self) )// 向 eventStream 中 发 布 UnhandledMessge 消息 
5. | 
6. } 


在 Actor trait 中 还 包括 下 列 成 员 或 方法 : 

1) 成 员 变 量 self; 代表 本 Actor 的 ActorRef。 

2) 成 员 变量 sender: 代表 最 近 收 到 的 消息 的 发 送 Actor。 

3) 成 员 方 法 supervisorStrategy: 用 户 可 重 写 它 来 定义 对 子 Actor 的 监管 策略 。 
4) 隐 式 成 员 变 量 context 暴露 Actor 和 当前 消息 的 上 下 文 信息 ， 如 . 
e 用 于 创建 子 Actor 的 工厂 方法 (actorOf) 。 

e Actor 所 属 的 系统 。 

e 父 监 管 者 。 

e 所 监管 的 子 Actor。 

。 生命 周期 监控 。 

e hotswap 行为 栈 。 

其 余生 命 周期 调用 的 回调 函数 如 下 所 示 : 


1. defpreStart( ) | 1// 在 启动 Actor 之 前 调用 

2 defpreRestart( reason ; Throwable , message ; Option[ Any]) 1/ 在 重启 之 前 调用 
3s context. children foreach (context. stop(_) ) 人 /递归 停止 子 Actor 

4 postStop( ) /调用 postStop 方法 释放 资源 

5 
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6.  defpostRestart(reason: Throwable) | preStart( ) 1// 在 重启 之 后 调用 ,调用 preStart 方法 做 启动 准备 
7. defpostStop( ) 11// 在 Actor 停止 之 后 调用 ,清理 释放 和 暂 用 资源 


© 


使 用 DeathWatch 进行 生命 周期 监控 


每 个 Actor 需要 同 其 他 Actor 协同 工作 ， 因 此 需要 对 协同 工作 的 Actor 的 状态 有 所 了 解 ， 
怎样 知道 其 他 Actor 的 状态 呢 ? 为 了 在 其 他 Actor 结束 时 收 到 通知 ，Actor 可 以 将 自己 注册 为 
其 他 Actor 在 终止 时 所 发 布 的 Terminated 消息 的 接收 者 。 这 个 服务 是 由 Actor 系统 的 Death- 
Watch 组 件 提供 的 。 注 册 一 个 监控 器 很 简单 ， 在 例 10 -5 中 ，WatchActor 继承 自 Actor, Œ 
WatchActor 内 部 使 用 context 的 actorOf 工厂 方法 ， 创 建 一 个 child Actor， 并 通过 context 的 
watch 方法 将 WatchActor 注册 到 child Actor， 完 成 对 child Actor 的 监控 注册 。 这 样 当 child 
Actor 终止 时 ，WatchActor 将 收 到 child Actor 发 出 的 Terminated 消息 ， 并 作 相 应 的 处 理 。 在 
Test} 中 ， 创 建 watchActor， 并 向 其 发 送 “Kill” 消 息 ，watchActor 收 到 “kill” 消 息 之 后 ， 将 
会 调用 context 的 stop 方法 终止 child Actor, H F watchActor 中 通过 watch 方法 对 child 进行 了 
监控 ， 因 此 在 child Actor 终止 后 ，watchActor 会 收 到 child Actor 发 出 的 Terminated 消息 。 示 
例 代码 如 例 10-5 所 示 。 

【 例 10-5】DeathWatch 生命 周期 监控 示例 。 


1. import akka. actor. _ 

2. object Test5 | 

3 def main( args: Array[ String] ) | 

4 // 创 建 名 为 HelloAkka 的 ActorSystem 
5. val _system = ActorSystem(" HelloAkka" ) 
6 

7 

8 

9 


// 使 用 ActorSystem 的 actorOf 工厂 方法 创建 Test Actor 

val watchActor = _system. actorOf( Props[ WatchActor | , name =" WatchActor" ) 
// 问 Test Actor 发 送 消 息 
watchActor ! "kill" 


ll. } 

12. class WatchActor extends Actor | 

13. val child = context. actorOf( Props. empty, "child" ) 

14. context. watch( child) // <-- 这 是 注册 所 需要 的 唯一 调用 

15. var lastSender = context. system. deadLetters 

16. println ( lastSender ) 

17. def receive = | 

18. case "kill" context. stop( child) ;///1E child 

19. println( " child stopped" )//FJ EN H child stopped 

20. lastSender = sender 

21. case Terminated( child ) 一 // 收 到 监控 child 发 出 的 Terminated 消息 
225 println ( "receive child Terminated message" ) 人/ 打印 出 receive child Terminated 


语言 基础 与 开发 实战 


23. lastSender ! "finished" 


25. | 


运行 结果 如 图 10-6 所 示 。 


“C:\Program Files\Java\jdk1. 7.0 80\bin\java” ..] 
ActorLakka: //HelloAkka/deadLetters] 
child stopped 


m 


Terminated message 
[INFO] [04/26/2016 21:49:51. 142] [HelloAkka-akka. acta 


receive child 


10-6 使 用 context. watch 进行 状态 监控 


使 用 context 的 watch 方法 可 以 注册 监控 ， 那 不 想 监控 的 时 候 如 何 取消 呢 ? 可 以 使 用 con- 
text. unwatch(targetActor) 来 停止 对 一 个 Actor 的 生存 状态 的 监控 ,但 很 明显 这 不 能 保证 不 会 
接收 到 Terminated 消息 因为 该 消息 可 能 已 经 进入 了 队列 。 


Hook 函数 的 调用 D 


1. 启动 Hook 

启动 Actor 后 > 它 的 preStart 会 被 立 即 执行 。 可 以 在 preStart 方法 中 做 相应 的 准备 工作 ’ 
或 注册 启动 其 他 的 Actor, preStart 方法 如 例 10-6 所 示 。 

[B] 10-6】 preStart Hook 方法 。 


1. override defpreStart( ) | 

2 // 注 册 其 他 Actor 

3. // 为 启动 Actor 做 准备 工作 
4. 

5 


someService! Register( self) 


| 


2. 重启 Hook 

所 有 的 Actor 都 是 被 监管 的 ， 并 且 以 某 种 失败 处 理 策 略 与 另 一 个 Actor 连接 在 一 起 。 如 
果 在 处 理 一 个 消息 的 时 候 抛 出 异常 ，Acetor 将 被 重启 。 这 个 重启 过 程 包括 上 面 提 到 的 Hook, 

1) 要 被 重启 的 Actor 的 preRestart 被 调用 ， 携 带 着 导致 重启 的 异常 ， 以 及 触发 异常 的 消 
A; 如 果 重 启 并 不 是 因为 消息 的 处 理 而 发 生 的 ， 所 携带 的 消息 为 None， 例 如 ， 当 一 个 监管 
者 没有 处 理 某 个 异常 继而 被 它 自 己 的 监管 者 重启 时 。 这 个 方法 是 用 来 完成 清理 、 准 备 移交 给 
新 的 Actor 实例 的 最 佳 位 置 。 它 的 缺 省 实现 的 是 终止 所 有 的 子 Actor 并 调用 postStop。 

2) 调用 actorOf 工厂 方法 创建 新 的 实例 。 

3) 新 的 Actor 的 postRestart 方法 被 调用 ， 携 带 着 导致 重 启 的 异常 信息 。Actor 的 重启 会 
替换 掉 原 来 的 Actor 对 象 ; 重启 不 影响 邮箱 的 内 容 ， 所 以 对 消息 的 处 理 将 在 postRestart 回调 
函数 返回 后 继续 , 触发 异常 的 消息 不 会 被 重新 接收 。 在 Actor 重启 过 程 中 所 有 发 送 到 该 Actor 
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的 消息 将 像 平 常 一 样 被 放 进 邮箱 队列 中 。 

3. 终止 Hook 

一 个 Actor 终止 后 ， 它 的 postStop 回调 函数 将 被 调用 ， 这 可 以 用 来 取消 该 Actor 在 其 他 服 
务 中 的 注册 。 这 个 回调 函数 保证 在 该 Actor 的 消息 队列 被 禁止 后 才 和 运行， 之 后 发 给 该 Actor S 
的 消息 将 被 重 定向 到 ActorSystem 的 deadLetters 中 。 


10.3.4 ER Actor + 


每 个 Actor 拥有 一 个 唯一 的 逻辑 路 径 ， 此 路 径 是 从 Actor 系统 的 根 开 始 的 父子 链 构 成 的 。 
它 还 拥有 一 个 物理 路 径 ， 如 果 监 管 链 包含 远程 监管 者 ， 那 么 此 路 径 可 能 会 与 逻辑 路 径 不 同 。 
这 些 路 径 用 来 在 系统 中 查找 Actor， 例 如 ， 当 收 到 一 个 远程 消息 时 查找 收 件 者 。 它 们 更 直接 
的 用 处 在 于 : Actor 可 以 通过 指定 绝对 或 相对 路 径 COZER) 来 查找 其 他 的 Actor 
并 随 结 果 获 取 ActorRef。 


1. context. actorFor( " /user/serviceA/ aggregator" ) // 查找 绝对 路 径 
2. context. actorFor(". . /joe" ) // 查找 同一 父 监管 者 下 的 兄弟 


其 中 指定 的 路 径 被 解释 为 一 个 java. net. URI， 它 以 “Z/ ”分 隔 成 路 径 段 。 如 果 路 径 以 
“/” 开 始 , 表示 一 个 绝对 路 径 ， 从 根 监管 者 (“A/user” 的 父亲 ) 开始 查找 ， 否 则 会 从 当前 
Actor 开始 。 如 果 某 一 个 路 径 段 为 “. .”, 会 找到 当前 所 遍历 到 的 Actor 的 上 一 级 ， 和 否则 会 向 
下 一 级 寻找 具有 该 名 字 的 子 Actor。 必 须 注 意 的 是 Actor 路 径 中 的 “.. ”总 是 表示 逻辑 结构 ， 
也 就 是 其 监管 者 。 如 果 要 查找 的 路 径 不 存在 ， 会 返回 一 个 特殊 的 Actor 引用 ， 它 的 行为 与 
Actor 系统 的 死 信 队列 类 似 ， 但 是 保留 其 身份 。 如 果 开 启 了 远程 调用 ， 则 远程 Actor 地 址 也 可 
以 被 查找 。 如 寻找 远程 Actor: 


context. actorFor( " akka://app@ otherhost ;9999/user/service" ) 


消息 的 不 可 变性 


消息 可 以 是 任何 类 型 的 对 象 ， 但 必须 是 不 可 变 的 。 目 前 ，Scala 还 无 法 强制 不 可 变性 ， 
所 以 这 一 点 必须 作为 约定 。String、Int、Boolean 这 些 原 始 类 型 总 是 不 可 变 的 。 除 了 它们 以 
外 ， 推 荐 的 做 法 是 使 用 Scala case class， 它 们 是 不 可 变 的 ， 并 与 接收 方 的 模式 匹配 配合 得 非 
常 好 。 其 他 适合 做 消息 的 类 型 包括 scala. Tuple2 、scala. List, scala. Map 它们 都 是 不 可 变 的 ， 
可 以 很 好 地 进行 模式 匹配 。 


10.3.6 Qs ) 


向 Actor 发 送 消 息 时 使 用 下 列 方法 之 一 : 
1) ! 意 思 是 “fire -and -forget”， 异 步 发 送 一 个 消息 并 立即 返回 ， 也 称 为 tell。 


语言 基础 与 开发 实战 


2) ?异步 发 送 一 条 消息 并 返回 一 个 Future 代表 一 个 可 能 的 回应 ， 也 称 为 ask。 


每 一 个 消息 发 送 者 分 别 保 证 自己 消息 的 次 序 。 

e tell: 这 是 发 送 消息 的 推荐 方式 ， 不 会 阻塞 等 待 消息 ， 拥 有 最 好 的 并 发 性 和 可 扩展 性 。 
如 果 是 在 一 个 Actor 中 调用 ， 那 么 发 送 方 的 Actor 引用 会 被 隐 式 地 作为 消息 的 sender: 
ActorRef 成 员 一 起 发 送 ， 目 的 Actor 可 以 用 它 向 原 Actor 发 送 回 应 ， 使 用 sender! re- 
plyMsg。 如 果 不 是 从 Actor 实例 发 送 的 ，sender 成 员 默 认为 deadLetters Actor 的 引用 。 

e ask: 模式 既 包 含 Actor 也 包含 Future， 所 以 它 是 作为 一 种 使 用 模式 ， 而 不 是 ActorRef 

的 方法 。 

为 了 说 明 ask 方法 的 使 用 ， 在 例 10 -7 中 创建 6 个 Actor， 分 别 是 MasterActor、TestAc- 
tor、ActorA 、ActorB 、ActorC 、ActorD ， 在 MasterActor 中 向 TestActor 发 送 “go” 消 息 ， 
TestActor 接收 并 打印 字符 消息 ， 并 调用 f 函数 , ff 函数 中 分 别 向 ActorA 、ActorB、ActorC 发 送 
Request 消息 ，ActorA 收 到 Request 消息 之 后 返回 整数 25，ActorB 收 到 Request 消息 之 后 返回 
字符 串 “regan”，ActorC 收 到 Request 消息 之 后 返回 浮 点 类 型 7500. 0。f 函数 中 根据 这 些 返 
回 值 通过 yield 关键 字 ， 产 生 新 的 Result 对 象 并 存在 Future 对 象 中 ， 在 TestActor PEJ f eK 
数 返 回 的 Future 对 象 上 的 pipeTo 方法 ,将 消息 转发 到 ActorD, ActorD 中 收 到 消息 并 打印 出 
Result 中 的 信息 。 下 面 是 完整 的 示例 代码 。 

【 例 10-7】 ask 方法 调用 示例 。 


1. import java. util. concurrent. TimeUnit 

2. import akka. actor. _ 

3. import akka. util. Timeout 

4. import scala. concurrent. Future 

5. import akka. pattern. | ask, pipe} 

6. import scala. concurrent. ExecutionContext. Implicits. global 

7. case class Result(x; Int, s: String, d: Double) 

8. case object Request 

9. class TestActor extends Actor | 

10. // 创 建 ActorA 

11. val actorA = context. actorOf( Props| ActorA ] , " ActorA" ) 
12. // 创 建 actorB 

13. val actorB = context. actorOf( Props[ ActorB | , " ActorB" ) 
14. // 创 建 actorC 

15. val actorC = context. actorOf( Props[ ActorC | , " ActorC" ) 
16. // 创 建 actorD 

17. val actorD = context. actorOf( Props| ActorD ] , " ActorD" ) 
18. // 隐 式 参数 ,“?’ 操作 会 用 到 

19. implicit val timeout = Timeout(10, TimeUnit. SECONDS) 
20. def f( ) : Future[ Result] = 

21. for} 

22; x <—ask(actorA, Request) mapTo manifest[ Int] /直接 调用 
DBs s <—actorB ask Request mapTo manifest[ String] / 隐 式 转换 调用 


24. d <-actorC ? Request mapTo manifest[ Double ] 人 通过 符号 名 称 调用 ,用 到 超时 隐 式 参数 
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| yield Result(x, s, d) //yield 产生 新 的 Result 对 象 


override def receive; Actor. Receive = } 


case msg => | S 


println( " receive msg:" + msg) 


f pipeTo actorD // 调 用 f 方 法 ,f 方法 返回 Future, 调 用 pipeTo 方法 ,将 消息 转 到 actorD 


| 


class ActorA extends Actor | 
override def receive; Actor. Receive = | 


case Request => println( " actorA" ) 


sender! 25 // 给 发 送 者 返回 整数 25 


| 
class ActorB extends Actor | 
override def receive; Actor. Receive = } 


case Request => println( " actorB" ) 


sender!" regan" // 给 发 送 者 返回 字符 串 “regan” 


} 
class ActorC extends Actor | 
override def receive; Actor. Receive = } 
case Request => println( " actorC" ) 


sender! 7500. 0 // 给 发 送 者 返回 浮 点 类 型 值 7500.0 


} 
class ActorD extends Actor { 
override def receive; Actor. Receive = } 
case msg => println( " actorD" ) 
println(" Request -—>" + msg. toString) /打印 出 actor 收 到 的 消息 


} 

class masterActor extends Actor | 
val testActor = context. actorOf( Props| TestActor | , " TestActor" ) 
testActor!" go" 
override def receive; Actor. Receive = } 


case msg => println( " masterActor receive msg:" + msg) 


} 
object test | 
def main( args; Array[ String] ) | 


语言 基础 与 开发 实战 


67. val _system = ActorSystem(" pipe" ) 

68. val masterActor =_system. actorOf(Props| masterActor |, "masterActor" ) // 创 建 masterActor 
69. Thread. sleep (60000) /人 主线 程 睡眠 60s ,等 待 计算 结束 后 退出 

70. _system. shutdown( ) /关闭 ActorSystem 

71. } 

(2 


运行 结果 如 图 10-7 所 示 。 


“C:\Program Files\Java\jdkl. 7. 0_80 
receive msg:go 


actorA 
actorB 
actorC 
actorD 


Request——>Result (25, regan, 7500. 0) 


Process finished with exit code 0 


图 10-7 ask 方法 与 Future 的 pipeTo 模式 使 用 


上 面 的 例子 展示 了 将 ask 与 Future 上 的 pipeTo 模式 一 起 使 用 ， 这 是 一 种 非常 常用 的 组 
合 。 请 注意 上 面 所 有 的 调用 都 是 完全 非 阻塞 和 异步 的 ，ask 产生 Future, 3 个 Future 通过 for 
语法 组 合成 一 个 新 的 Future， 然 后 用 pipeTo 在 Future 上 安装 一 个 onComplete 处 理 需 来 完成 
将 收集 到 的 Result 发 送 到 其 他 Actor 的 动作 。 

使 用 ask 会 像 tell 一 样 发 送 消息 给 接收 方 ， 接 收 方 必须 通过 sender! reply 发 送 回 应 来 为 
返回 的 Future 填充 数据 。ask 操作 包括 创建 一 个 内 部 Actor 来 处 理 回应 ， 必 须 为 这 个 内 部 
Actor 指定 一 个 超时 期 限 ， 过 了 超时 期 限 ， 内 部 Actor 将 被 销毁 以 防止 内 存 泄露 。 如 果 要 以 异 
党 来 填充 Future， 需 要 发 送 一 个 Failure 消息 给 发 送 方 。 这 个 操作 不 会 在 Actor 处 理 消息 发 生 
异常 时 自动 完成 。 例 10-11 展示 了 处 理 请 求 异常 的 情况 。 在 try - catch 语句 块 中 ， 若 发 生 了 
异常 ， 将 被 case e: Exception 匹配 到 ， 匹 配 到 异常 消息 之 后 ， 通 过 sender 的 “1” 方 法 ,发 
送 akka. actor. Status. Failuer(e) 消息， 并 使 用 throw e 将 异常 抛 出 。 

【 例 10-8】 try- catch 语句 块 中 处 理 请 求 异常 示例 。 


try | 
val result = operation ( ) 
sender! result 


} catch | 


sender | akka. actor. Status. Failure(e) 


1 

2 

3 

4 

5. case e; Exception > 
6 

7 throw e 
8 


| 


如 果 一 个 Actor 没有 完成 Future， 它 会 在 超时 时 限 到 来 时 过 期 ， 以 AskTimeoutException 
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来 结束 。 超 时 的 时 限 是 按 下 面 的 顺序 和 位 置 来 获取 的 : 
。 指定 超时 代码 如 下 : 


importakka. util. duration. _ 
2 importakka. pattern. ask 
3. val future = myActor. ask("hello" ) (5 seconds) 人 指定 超时 时 间 


o 提供 akka. util. Timeout 的 隐 式 参数 代码 如 下 : 


importakka. util. duration. _ 

importakka. util. Timeout 

importakka. pattern. ask 

implicit val timeout = Timeout(5 seconds) /请求 超 时 的 隐 式 参数 
val future = myActor ? "hello" 
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Future 的 onComplete , onResult 或 onTimeout 方法 可 以 用 来 注册 一 个 回调 ， 以 便 在 Future 
完成 时 得 到 通知 ， 从 而 提供 一 种 避免 阻塞 的 方法 。 


10.3.7 转发 消息 


可 以 将 消息 从 一 个 Actor 转发 给 另 一 个 。 虽 然 经 过 了 一 个 “中 转 ”， 但 最 初 的 发 送 者 的 
地 址 和 引用 将 保持 不 变 。 当 实现 功能 类 似 路 由 器 、 负 载 均 衡器 、 备 份 等 的 Actor 时 会 很 有 
用 ， 用 法 是 : oneActor. forward( message) ， 该 代码 的 意思 是 将 message 消息 转发 给 oneActor。 


10.3.8 接 收 消息 
Actor 必须 实现 receive 方法 来 接收 消息 ， 以 下 是 receive 方法 的 定义 : 
protected def receive ; PartialFunction[ Any , Unit ] 
注意 : Akka 为 PartialFunction [ Any, Unit] 取 了 一 个 别名 ， 叫 作 Receive (akka. actor. Ac- 


tor. Receive) ， 为 了 使 代码 清晰 ， 可 以 使 用 这 个 类 型 ， 但 大 多 数 情 况 下 并 不 需要 写 它 。 


10. 3. 9 回应 消息 


当 收 到 消息 之 后 ， 如 何 向 消息 发 送 者 回馈 信息 呢 ? 可 以 使 用 sender， 它 代表 消息 的 发 
送 方 ， 当 Actor 通过 ask 或 tell 方法 发 送 消 息 的 时 候 ， 将 自己 作为 一 个 隐 式 参数 ， 发 送 到 
消息 接收 方 ，sender 在 消息 接收 方 即 代 表 消 息 发 送 者 ， 因 此 可 以 用 sender! replyMsg 给 消 
息 发 送 者 回应 消息 。 当 然 也 可 以 将 这 个 sender 引用 保存 起 来 将 来 再 做 回应 。 如 果 没 有 
sender (不 是 从 Actor 发 送 的 消息 或 者 没有 Future EFX), IWA sender 默认 为 “ 死 信 ” 
Actor 的 引用 。 


语言 基础 与 开发 实战 


1. case request => 
Ds val result = process ( request ) 
3. sender! result // 默 认为 死 信 actor 


在 接收 消息 时 ， 如 果 在 一 段 时 间 内 没有 收 到 消息 ， 可 以 使 用 超时 机 制 。 要 检测 这 种 超时 
必须 设置 receiveTimeout 属性 ， 并 声明 一 个 处 理 ReceiveTimeout 对 象 的 匹配 分 支 。 例 10-8 通 
过 context 的 setReceiveTimeout 方法 设置 超时 时 间 为 Ss， 若 操作 Ss 还 未 收 到 消息 receive 方 
法 中 的 case ReceiveTimeout 分 文 将 会 被 匹配 到 ， 帮 被 匹配 到 ， 将 抛 出 一 个 RuntimeException 
异常 ， 代 码 如 下 所 示 。 

【 例 10-9】 使 用 context 设置 超时 时 间 示 例 。 


import akka. actor. ReceiveTimeout 
import akka. util. duration. _ 
class MyActor extends Actor | 
context. setReceiveTimeout(30 milliseconds ) //context 设置 超时 时 间 
def receive = } 
case " Hello" => println( “hello” ) 
case ReceiveTimeout throw new RuntimeException(" received timeout" ) 
| 
| 


执行 结果 如 图 10-8 所 示 。 
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lefault-dispatcher-4] [akka: /,/HelloAkka/user/myActor] received timeout 


图 10-8 在 receive 中 设置 超时 时 间 


终止 Actor 


在 某 些 情况 下 ， 需 要 终止 Actor 并 重新 启动 ， 以 使 Actor 状态 一 致 。 可 以 通过 调用 Actor- 
RefFactory 或 ActorContext 或 ActorSystem 的 stop 方法 来 终止 一 个 Actor。 通 常 context 用 来 终 
止 子 Actor， 而 system 用 来 终止 顶级 Actor。 实际 的 终止 操作 是 异步 执行 的 ， 因 此 stop 可 能 在 
Actor 被 终止 之 前 返回 。 如 果 当 前 有 正在 处 理 的 消息 ， 对 该 消息 的 处 理 将 在 Actor 被 终止 之 前 
完成 ， 邮 箱 中 的 后 续 消息 将 不 会 被 处 理 ， 默 认 情 况 下 这 些 消息 会 被 送 到 ActorSystem 的 死 信 
中 ， 但 这 也 取决 于 邮箱 的 实现 。 

Actor 的 终止 分 为 两 步 : 第 一 步 ，Actor 停止 对 邮箱 的 处 理 ， 向 所 有 子 Actor 发 送 终止 命 

然后 处 理子 Actor 的 终止 消息 ， 直 到 所 有 的 子 Actor 都 完成 终止 。 第 二 步 , 终止 自己 


EOE Akkaiti EA 


(调用 postStop ， 销 毁 邮 箱 ， 向 DeathWatch 发 布 Terminated， 通 知 其 监管 者 ) 。 这 个 过 程 保 证 

Actor 系统 中 的 子 树 以 一 种 有 序 的 方式 终止 ， 将 终止 命令 传播 到 叶子 结 点 并 收集 它们 回 送 的 

确认 消息 。 如 果 其 中 某 个 Actor 没有 响应 (例如 ， 由 于 处 理 消息 用 了 太 长 时 间 ， 以 至 于 没有 

收 到 终止 命令 ) ， 整 个 过 程 将 会 被 阻塞 。 © 
ActorSystem. shutdown 被 调用 时 ， 系 统 根 监管 Actor 会 被 终止 ， 以 上 过 程 将 保证 整个 系统 

的 正确 终止 。postStop 回调 函数 是 在 Actor 被 完全 终止 以 后 调用 的 ， 以 释放 占用 的 资源 。 
除了 使 用 stop 方法 终止 Actor 外 ， 还 可 以 向 Actor 发 送 akka. actor. PoisonPill 消息 ， 这 个 

消息 处 理 完成 后 Actor 会 被 终止 。PoisonPill 与 普通 消息 一 样 被 放 进 队列 ; 因此 会 在 已 经 进入 

队列 的 其 他 消息 之 后 被 执行 。 


Become/ Unbecome 


Akka 支持 在 运行 时 对 Actor 消息 循环 进行 实时 替换 ， 即 消息 处 理 的 HotSwap。 其 实现 原 
理 是 通过 become 和 unbecome 在 运行 时 动态 替换 消息 处 理 的 代码 。become 要 求 用 一 个 Par- 
tialFunction | Any, Unit] 参数 作为 新 的 消息 处 理 实现 ， 被 替换 的 代码 被 存在 一 个 栈 中 ， 可 以 
通过 push 和 pop 替换 。 例 10-9 是 一 个 become 和 unbecome 使 用 的 例子 ,该 例子 中 使 用 
become/unbecome 对 处 理 消息 的 代码 进行 奉 换 ，HotSwapper 收 到 第 一 个 HotSwap 消息 后 ， 打 
印 出 “Hi”， 然 后 调用 become， 当 HotSwapper 第 二 次 收 到 HotSwap 消息 ， 将 执行 bocome 中 
的 代码 ， 打 印 出 “Ho”， 打 印 出 “Ho” 消 息 后 ， 调 用 unbecome， 使 处 理 消 息 的 代码 回 到 初 
始 ， 打 印 出 “Hi”。 详 细 代码 如 下 所 示 。 

【 例 10-10】 使 用 become/unbecome 对 消息 循环 进行 实时 替换 的 示例 。 


1. import akka. actor. | Props, ActorSystem, Actor} 

2. import akka. event. Logging 

3. case object HotSwap 

4. class HotSwapper extends Actor | 

5. import context. _ 

6. val log = Logging( system, this) 

J def receive = | 

8. case HotSwap= 

9. log. info(" Hi" ) /打印 Hi 

10. become | 

11. // 调 用 become ,此 时 处 理 邮 箱 中 处 理 消 息 的 代码 变 成 become 块 中 的 代码 

12. case HotSwap> 

13. log. info(" Ho" ) /打印 Ho 

14. unbecome() /调用 unbecome ,此 时 处 理 邮 箱 中 处 理 消 息 的 代码 变 成 become 块 
外 面 的 代码 

15. } 

16. } 

1, | 

18. object HotSwapper extends App | 

19. val system = ActorSystem(" HotSwapperSystem" ) 


语言 基础 与 开发 实战 


20. val swap = system. actorOf( Props| HotSwapper | , name =" HotSwapper" ) 
21. swap! HotSwap // 打印 Hi 

22 swap! HotSwap // 打印 Ho 

28: swap! HotSwap // 打印 Hi 

24. swap! HotSwap // 打印 Ho 

25 


执行 结果 如 图 10-9 所 示 。 


va 


'stem-akka. actor. default-dispatcher-3] [akka://HotSwapperSystem/user/HotSwapper] Hi 


'stem-akka. actor. default-dispatcher-3] [akka://HotSwapperSystem/user/HotSwapper] Ho 
'stem-akka. actor. default-dispatcher-3] [akka://HotSwapperSystem/user/HotSwapper] Hi 
| stem-akka. actor. default-dispatcher-3] [akka: //HotSwapperSystem/user/HotSwapper] Ho 


10-9 become/unbecome 更 新 消息 处 理 代码 


杀 死 Actor > 


可 以 通过 发 送 Kil 消息 来 杀 死 Actor， 这 将 会 使 用 正规 的 监管 语义 杀 死 Actor。 使 用 示 
例 : myActor! Kill, IBA Kill 与 stop 或 PoisonPill 直接 有 什么 区 别 呢 ? 

首先 ，stop 方法 和 PoisonPill 消息 都 会 终止 Actor 的 执行 ， 并 且 停 止 消息 队列 。Stop 和 
PoisonPill 操作 会 向 子 Actor 发 送 终止 消息 ， 并 等 待 它们 的 终止 反馈 ， 待 所 有 的 子 Actor A 
止 后 ， 调 用 回调 函数 postStop 清除 资源 。Stop 和 PoisonPill 之 间 的 区 别 是 ， 调 用 stop 方法 会 
等 待 正在 处 理 的 消息 处 理 完成 ， 之 后 的 消息 则 置 之 不 管 ; 而 发 送 PoisonPill 消息 ， 该 消息 将 
会 以 普通 消息 的 形式 进入 消息 队列 ， 等 等 处理， 在 消息 队列 中 ，PoisonPill 消息 之 前 的 消息 
将 会 得 到 处 理 。 

其 次 ，Kill 消息 将 会 使 Actor 抛 出 ActorKilledExeception 异常 ， 而 处 理 该 异常 将 会 使 用 到 
监管 机 制 ， 因 此 这 里 的 处 理 完全 依赖 于 定义 的 监管 策略 。 在 默认 情况 下 ， 会 停止 Actor， 并 
保存 消息 队列 ， 待 Actor 重启 之 时 ， 除 了 引发 异常 的 消息 之 外 ， 其 余 消息 将 得 到 恢复 。 


10. 4 不 同类 型 的 Actor 


Akka 中 的 Actor 分 为 有 类 型 Actor 和 普通 Actor, Akka 中 的 有 类 型 Actor 是 Active Objects 
模式 的 一 种 实现 。Smalltalk 诞生 之 时 ， 就 已 经 默认 地 将 方法 调用 从 同步 操作 改 为 异步 派发 。 

有 类 型 Actor 由 两 部 分 组 成 : 一 个 公开 的 接口 和 一 个 实现 , “企业 级 ”Java 开发 者 对 此 
应 该 非常 熟悉 。 对 普通 Actor 来 说 ， 拥 有 一 个 外 部 APL (公开 接口 的 实例 ) 来 将 方法 调用 异 
步 地 委托 给 其 实现 的 私有 实例 。 

有 类 型 Actor 相对 于 普通 Actor 的 优势 在 于 : 有 类 型 Actor 拥有 静态 的 契约 ， 不 需要 定义 
自己 的 消息 ， 它 的 劣势 在 于 对 能 做 什么 和 不 能 做 什么 进行 了 一 些 限制 ， 例 如 不 能 使 用 be- 
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come/unbecome , 

有 类 型 Actor 是 使 用 JDK Proxies 实现 的 ，JDK Proxies 提供 了 非常 简单 的 API 来 拦截 方法 
调用 。 在 10. 2 一 节 中 重点 介绍 了 普通 Actor， 因 此 在 本 节 中 不 再 袭 述 ， 本 节 将 重点 放 在 有 类 
型 Actor 上 。 > 

有 类 型 Actor 是 Active Object 模式 的 一 种 实现 。Active Object 这 种 模式 的 主要 思想 是 将 
方法 的 调用 和 执行 分 离 ， 使 Actor 的 实现 更 清晰 、 更 简洁 。 在 这 种 设计 模式 中 ， 为 了 将 方法 
的 执行 从 方法 的 调用 中 分 离 ， 必 须 将 方法 的 执行 和 方法 的 调用 放置 到 隔离 的 线程 中 去 ， 有 了 
调用 和 执行 相互 隔离 的 线程 ， 在 Actor 实现 的 时 候 ， 就 可 以 并 行 、 异 步 地 获取 对 象 状 态 。 

怎样 分 离 方法 的 调用 和 方法 的 执行 呢 ? Active Object 模式 为 了 实现 这 一 点 ， 使 用 了 代理 
模式 ， 将 接口 和 实现 进行 分 离 ， 思 想 就 是 在 相互 隔离 的 线程 中 分 别 运行 代理 和 实现 。 原 理 如 
图 10-10 所 示 。 


Proxy 
method1() 
method2() 


Schedular S 
/Invocation Handier 


Implementation 
method1() 
method2() 


Thread1 


Thread2 
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1) 运行 时 ，Client 调用 Proxy 对 象 并 执行 方法 。 

2) Proxy 将 方法 调用 转换 成 成 对 的 Schedular 或 者 Invocation Handler 的 请 求 。Scheduler 
或 Invocation Handler 将 会 拦截 请 求 。 

3) Scheduler 或 者 Invacation Handler 将 方法 请 求 放 入 队列 。 

4) 监控 队列 ， 执 行 可 执行 的 方法 。 

5) Scheduler 或 者 Invocation Handler 分 发 请 求 到 具体 实现 方法 的 对 象 上 执行 。 

6) 具体 对 象 执行 方法 ， 给 Client 端 返回 Future 结果 。 

在 了 解 Typed Actor 实现 的 基本 思想 之 后 ， 下 面 将 创建 Typed Actor。 

在 创建 第 一 个 有 类 型 的 Actor 之 前 ， 先 来 了 解 一 下 手 上 可 供 使 用 的 工具 ， 它 位 于 
akka. actor. TypedActor 中 。 这 些 可 用 的 工具 方法 如 下 所 示 。 


1. importakka. actor. TypedActor 


2. // 返 回 有 类 型 actor 扩展 
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val extension = TypedActor( system) //system 是 一 个 Actor 系统 实例 
// 判 断 一 个 引用 是 否 是 有 类 型 actor 代理 

TypedActor( system ). isTypedActor( someReference ) 

// 返 回 一 个 外 部 有 类 型 actor 代理 所 代表 的 Akka actor 

TypedActor( system ). getActorRefFor( someReference ) 

// 返 回 当 前 的 ActorContext 

// 此 方法 仪 在 一 个 TypedActor 实现 的 方法 中 有 效 

10. val c:ActorContext = TypedActor. context 

11. /返回 当前 有 类 型 actor 的 外 部 代理 

12. /此 方法 仅 在 一 个 TypedActor 实现 的 方法 中 有 效 

13. val s:Squarer = TypedActor. self[ Squarer | 

14. /返回 一 个 有 类 型 Actor 扩展 的 上 下 文 实例 

15. /这 意味 着 如 果 用 它 创建 其 他 的 有 类 型 Actor ,它们 会 成 为 当前 有 类 型 Actor 的 子 Actor 
16. TypedActor( TypedActor. context) 
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要 创建 有 类 型 Actor 需要 一 个 或 多 个 接口 ， 以 及 一 个 实现 。 创 建 有 类 型 Actor 最 简单 的 方 
法 是 : val myTypedActor :Trait = TypedActor ( system ) . typedActorOf ( TypedProps[ Impl] ())。 
fi) 10-15 将 通过 一 个 例子 来 实际 使 用 TypedActor。 在 实现 Typed Actor 之 前 ， 关 于 接口 方法 
有 几 点 需要 说 明 : 

1) 如 果 方 法 返回 void 类 型 ， 该 方法 调用 如 有 类 型 Actor 中 的 tell 一 样 ， 属 于 “fire and 
forget” 类 型 。 

2) 如 果 方 法 返回 Option 类 型 ， 该 方法 将 会 一 直 阻 塞 ， 直 到 结果 的 返回 ， 如 果 在 设置 的 
超时 时 间 内 还 没有 返回 ， 方 法 将 停止 并 返回 “None”。 

3) 如 果 方 法 返回 Future 类 型 ， 该 方法 调用 跟 有 类 型 Actor 中 的 ask 一 样 ， 不 会 阻塞 ， 会 
立即 返回 一 个 Future。 

4) 方法 返回 其 他 类 型 ， 该 方法 将 会 一 直 阻 塞 ， 直 到 结果 返回 ， 一 直到 超时 。 

接 下 来 将 通过 一 个 实际 的 例子 ， 展 示 TypedActor 的 使 用 ， 在 例 10-10 中 定义 了 一 个 Cal 
接口 ， 该 接口 中 有 add, multi 两 个 抽象 方法 ， 分别 用 于 求 和 与 求 积 。Calculate 继承 Cal 接口 
并 实现 add、multi 两 个 抽象 方法 。 在 LearnTypedActor 对 象 中 ， 使 用 TypedActor 的 typedAc- 
torOf 工厂 方法 ， 实 例 化 出 Calculate 对 象 ， 调 用 Calculate 对 象 的 add 和 multi 方法 ， 打 印 出 返 
回 值 。 完 整 代码 如 下 所 示 。 

【 例 10-11】 实际 使 用 TypedActor 示例 。 


1. import scala. concurrent. Future 

2. import akka. actor. _ 

3. import scala. concurrent. duration. _ 
4. import scala. concurrent. Await 

5. //7e GRO 

6. trait Cal | 

7 // 求 和 

8 def add(x: Int, y: Int): Unit 
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9. // 求 积 


10. def multi; Futurel Int | 

11. | 

12. class Calculate( var length: Int, var width: Int) extends Cal | S 

3 // 实 现 接口 

14. def add(x; Int, y: Int) : Unit = | 

15. // 没 有 返回 值 ,这 种 方法 相当 于 tell 调用 

16. this. length + x + this. width + y 

17. } 

18. def multi; Future[ Int] = | 

19. // 返 回 值 为 Future, 这 种 方法 相当 于 ask 调用 

20. println( " wait before multi" ) 

21. Thread. sleep (2000 ) 

227 Future. successful (length * width) 

23. t 

24. | 

25. object LearnTypedActor | 

26. def main( vars; Array[ String] ) | 

ks val system = ActorSystem(" myActorSystem" ) 人 /创建 ActorSystem 

28. val calculator; Cal = TypedActor( system ) . typedActorOf( TypedProps ( classOf[ Cal], new 
Calculate(10, 20) ) ) /实例 化 TypedActor 

29. //F¥ire and forget ,类 似 tell 

30. val future01 = calculator. add(1, 2) 

31. println( future01 ) 

32. //Send and receive ,类 似 ask 

33. val future02 = calculator. multi 

34. val result02 = Await. result( future02, 5 second) 

35. println( result02 ) 

36. system. shutdown ( ) 

JT } 

38. | 


输出 结果 如 图 10-11 所 示 。 


“C:\Program Files\Java\jdkl. 7.0 80\bin\jal 
0 

wait before multi 

200 


Process finished with exit code 0 


图 10-11 使 用 TypedActor 


在 上 述 例子 中 ， 定 义 了 一 个 Cal 的 Trait, Calculate 实现 Cal 这 个 Trait， 在 main 方法 中 通 
过 val calculator: Cal = TypedActor( system ). typedActorOf (TypedProps (classOf[ Cal ] ,new Calculate 
(10,20))) 产 生 的 TypedActor， 通 过 调用 calculator 实例 上 的 add 和 multi 方法 来 测试 。 
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TypedActorOf 方法 的 调用 ， 返 回 一 个 Calculate 动态 代理 实例 。 

Akka 中 的 有 类 型 Actor， 将 异步 的 调用 和 执行 封装 在 方法 中 ， 在 代码 层面 保证 了 的 顺序 
执行 思维 。Active Objects 设计 模式 包含 6 种 元 素 : 

1) 代理 : 提供 了 面向 客户 端的 带 有 公开 方法 的 接口 。 

2) 接口 : 定义 了 到 active object 的 请 求 方法 (业务 代码 提供 

3) 来 自 客户 端的 序列 等 待 请 求 。 

4) 调度 器 : 决定 接 下 来 执行 哪个 请 求 。 

5) active object 方法 的 实现 类 (业务 代码 提供 ) 。 

6) 一 个 回调 或 变量 ， 以 让 客户 端 接收 结 


方法 派发 语义 p 


Akka 在 派发 返回 类 型 为 void 的 方法 时 ，Unit 工具 会 以 Fire - And - Forget 语义 进行 派 
发 ， 与 ActorRef tell 完全 一 致 。 

返回 类 型 为 akka. dispatch. Future[ _] 的 方法 ， 会 以 Send - Request - Reply 语义 进行 派发 ， 
与 ActorRef ask 完全 一 致 。 

返回 类 型 为 scala. Option[ _] 和 akka. japi. Option < ? > 的 方法 ， 会 以 Send - Request - Re- 
ply 语义 派发 ， 会 阻塞 等 竺 应答。 如 果 在 超时 时 限 内 没有 应 答 ， 则 返回 None; 否则， 返回 包 
含 结 果 的 scala. Some 或 akka. japi. Some。 在 这 个 调用 中 发 生 的 异常 将 被 重新 抛 出 。 

任何 其 他 类 型 的 值 将 以 Send - Request - Reply 语义 进行 派发 ， 会 阻塞 地 等 待 应 答 。 如 果 
超时 ， 会 抛 出 java. util. concurrent. TimeoutException; 如 果 发 生 异 常 ， 则 将 异常 重新 抛 出 。 

如 图 10-12 所 示 是 Typed Actor 消息 派发 的 3 种 方式 。 


void method() 


Caller Fire And Forget ActorA 


Ww 


o 


Future method() j 


Wait on Future for reply 


Send and receive----async 


Option<?> method 


Waits for reply 


Caller ActorA 


Send and receive----Sync 
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10-12 Typed Actor 方法 的 派发 方式 
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ZED) 终止 有 类 型 Actor 


由 于 有 类 型 Actor 底层 还 是 Akka Actor， 所 以 在 不 需要 的 时 候 要 终止 它 ， 以 释放 资源 。 (S) 
通常 有 两 种 终止 方法 : a 
1) TypedActor( system). stop( mySquarer ) 。 
2) TypedActor( system). poisonPill( otherSquarer) : 异步 终止 与 指定 的 代理 关联 的 有 类 型 


Actor。 


10. 5 小 结 


本 章 主要 讲解 Akka 的 设计 理念 及 Akka 基本 API 使 用 。 在 10. 1 一 节 中 ， 讲 解 了 Akka HE 
架 的 模型 。Akka 框架 是 基于 Scala Actor 模式 的 一 种 实现 。 

在 10.2 一 节 中 ,讲解 了 Akka 中 Actor 的 不 同 创建 方式 ， 例 如 ， 可 以 通过 继承 
akka. actor. Actor 接口 ; 可 以 使 用 非 缺 省 构造 方法 ; 还 可 以 使 用 匿名 类 创建 等 多 种 创建 方式 。 

10. 3 一 节 中 ， 讲 解 了 Akka 的 API, DAR Actor 中 不 同 回调 函数 的 使 用 。 

10.4 一 节 中 ,介绍 了 Typed Actor 的 实现 原理 及 语意 派发 。 通 过 调用 stop 或 者 poisonPill 
方法 终止 TypedActor。 

通过 本 章 的 学 习 ， 读 者 朋友 能 够 明白 Akka 框架 的 基于 消息 传递 的 模型 能够 使 用 Akka 
API 创建 Actor， 来 发 送 和 接收 消息 。 
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BUR Akka 核心 组 件 及 核心 特性 剖析 


Akka 中 的 Dispatcher 是 维持 Akka Actor 运作 的 核心 组 件 ， 是 整个 Akka 框架 的 引擎， 它 
是 基于 Java 的 Executor 框架 实现 的 。Dispatcher 控制 和 协调 消息 并 将 其 分 发 给 运行 在 底层 线 
程 上 的 Actor， 由 它 来 负责 调度 资源 的 优化 ， 并 保证 任务 以 最 快 的 速度 执行 。Router 是 Akka 
中 一 种 特殊 的 Actor， 它 将 收 到 的 消息 通过 不 同 的 算法 转发 给 其 他 Acetor， 来 达到 路 由 器 的 
效果 。 

Akka 的 高 稳定 性 是 建立 在 “Let It Crash” 模 型 之 上 的 ,该 模型 是 基于 Supervision 和 
Monitoring 实现 的 。 通 过 定义 Supervision 和 监管 策略 ， 实 现 系统 异常 处 理 。 

Akka 中 为 了 保证 事务 的 一 致 性 ,引入 了 STM 的 概念 。STM 中 使 用 的 是 “乐观 锁 ” ， 执 
行 临界 区 代码 后 ， 会 检测 是 否 产 生 冲 突 ， 如 果 产 生 冲 突 ， 将 回 深 修 改 ， 重 新 执行 临界 区 代 
码 。 本 章 将 对 Akka 中 的 Dispatcher 和 Router 工作 原理 进行 详细 讲解 ，11. 2 一 节 会 对 Supervi- 
sion 和 Monitoring 工作 机 制 进行 深入 剖析 。 在 11. 3 一 节 的 Akka 事务 中 ， 将 详细 讲解 Akka 事 
务 的 实现 原理 。 


S Dispatchers 和 Routers 


Akka Message Dispatcher 是 维持 Akka Actor“ 运 作 ” 的 部 分 ， 可 以 说 它 是 整个 Akka 框架 
的 引擎 。 所 有 的 Message Dispatcher 同时 实现 一 个 Execution Context， 这 意味 着 它们 可 以 用 来 
执行 任何 代码 。 

在 Akka 中 ，Dispatcher 基于 Java Executor 框架 来 实现 ， 提 供 了 异步 执行 任务 的 能 

Executor 是 基于 生产 者 一 消费 者 模型 来 构建 的 ， 这 就 意味 着 任务 的 提交 和 任务 的 执行 是 
在 不 同 的 线程 中 隔离 执行 的 ， 即 提交 任务 的 线程 与 执行 任务 的 线程 是 不 同 的 。Executor 框架 
的 两 个 重要 实现 是 : 

e ThreadPoolExecutor: 该 实现 从 预定 义 的 线程 池 中 选取 线程 来 执行 任务 。 

e ForkJoinPool; 使 用 相同 的 线程 池 模 型 ， 提 供 了 工作 穷 取 的 支持 。 

在 Akka 中 ，Dispatcher 控制 和 协调 消息 并 将 其 分 发 给 运行 在 底层 线程 上 的 Actor， 由 它 
来 负责 调度 资源 的 优化 ， 并 保证 任务 以 最 快 的 速度 执行 。Akka 提供 了 多 种 Dispatcher 类 型 ， 
用 户 可 以 根据 自己 的 硬件 资源 及 应 用 类 型 选择 合适 的 Dispatcher 类 型 。 

Dispatcher 运行 在 线程 之 上 ， 人 负责 分 发 其 邮箱 里 面 的 Actors 和 Messages 到 executor 中 的 
线程 上 运行 。 在 Akka 中 ， 提 供 了 4 种 类 型 的 Dispatcher: 

@ Dispatcher, 


® Pinned Dispatcher, 
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® Balancing Dispatcher, 

e Calling Thread Dispatcher, 

对 应 的 ， 也 有 默认 的 4 种 邮箱 的 实现 : 

e Unbounded mailbox , > 


e Bounded mailbox, 


e Unbounded priority mailbox, 


® Bounded priority mailbox, 


Akka 提供 了 这 人 么 多 默认 的 实现 ， 在 程序 中 要 如 何 使 用 呢 ? 以 及 如 何 为 Actor 指定 派发 


An VE? 


cae 为 Actor 指定 派发 器 ) 


如 果 硕 望 为 Actor 设置 非 缺 省 的 派发 需 ， 需 要 做 两 件 事 。 
1) 在 实例 化 Actor 的 时 候 ， 指 定 派发 器 ， 如 下 所 示 : 


importakka. actor. Props 


valmy Actor = context. actorOf( Props[ MyActor |. withDispatcher(" my — dispatcher" ) ," myactorl" ) 


2) 创建 Actor 的 时 候 ， 使 用 withDispatcher 指定 派发 器 为 my - dispathcer， 然 后 在 appli- 
cation. conf 配置 文件 中 配置 派发 器 。 


my — dispatcher | 


| 


# Dispatcher 是 基于 事件 的 派发 需 的 名 称 
type = Dispatcher 
# 使 用 何 种 ExecutionService 
executor = " fork — join — executor" 
# 配 置 fork join 池 
fork - join - executor | 
# 容 纳 基 于 倍数 的 并 行 数量 的 线程 数 下 限 
parallelism — min =2 
# 并 行 数 (线程 )( 可 用 CPU 数 类 倍数 ) 
parallelism — factor =2.0 
# 和 容纳 基于 倍数 的 并 行 数量 的 线程 数 上 限 
parallelism — max = 10 
| 
# Throughput 定义 了 线程 切换 到 另 一 个 Actor 之 前 处 理 的 消息 数 上 限 
# 设 置 成 1 表示 尽 可 能 公平 
throughput = 100 


在 接 下 来 的 小 节 中 ， 将 分 别 对 不 同 的 派发 大 进行 介绍 。 
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CY) 派发 器 的 类 型 


下 面 将 对 4 种 Dispatcher 分 别 介绍 。 

1. Dispatcher 

Dispatcher 是 Akka 中 默认 的 派发 器 ， 这 是 一 种 基于 事件 的 分 发 器 ， 该 派发 器 绑 定 一 组 
Actor 到 线程 池 中 ， 下 面 是 Dispatcher 的 一 些 特性 。 

e 每 一 个 Actor 都 有 自己 的 邮箱 。 

e 该 Dispatcher 可 以 被 任意 数量 的 Actor 共享 。 

e 该 Dispatcher 可 以 由 ThreadPoolExecutor 或 ForkJoinPool 提供 支持 。 

e 该 Dispatcher 是 非 阻塞 的 。 

默认 Dispatcher 的 工作 原理 如 图 11-1 所 示 。 


Actor 和 message 从 邮箱 取出 Actor 
被 分 发 给 线程 执行 和 Actor 对 应 的 消息 


图 11-1 Dispatcher 工作 原理 图 


2. Pinned Dispatcher 
这 种 类 型 的 Dispatcher 为 每 一 个 Actor 提供 一 个 单一 的 、 专 用 的 线程 。 这 种 做 法 在 1/0 
操作 或 者 长 时 间 运 行 的 计算 中 是 非常 有 用 的 ， 下 面 是 Pinned Dispatcher 的 特点 。 

e 每 一 个 Actor 都 有 自己 的 邮箱 。 

e 每 一 个 Actor 都 有 专用 的 线程 ， 该 线程 不 能 和 其 他 Actor 共享 。 

e 这 种 Dispatcher 有 一 个 Executor 线程 池 。 

© 这 种 Dispatcher 在 阻塞 操作 上 进行 了 优化 。 例 如 ， 如 果 程 序 正 在 进行 YO ERIE, ABA 
这 个 Actor 将 会 等 到 任务 执行 完成 。 这 种 阻塞 型 的 操作 在 性 能 上 要 比 默 认 的 
Dispatcher 好 。 

Pinned Dispatcher 工作 原理 如 图 11-2 所 示 。 

3. Balancing Dispatcher 

这 是 一 种 基于 事件 的 Dispatcher， 它 会 将 任务 比较 多 的 Actor 的 任务 重新 分 发 到 比较 闲 的 
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Actor 和 message 从 邮箱 取出 Actor 
被 分 发 给 线程 执行 和 Actor 对 应 的 消息 


Actor 邮 箱 


| 


Actor 邮 箱 


Pinned Dispatcher Actor 邮 箱 


11-2 Pinned Dispatcher 工作 原理 
Actor 上 运行 。 下 面 是 Balancing Dispatcher 的 特点 。 
© 所 有 Actor 共用 一 个 邮箱 。 
e 该 Dispatcher 只 能 被 同一 种 类 型 的 Actor 共享 。 
e 该 Dispatcher 可 以 由 ThreadPoolExecutor 或 ForkJoinPool 提供 支持 。 
Balancing Dispatcher 原理 如 图 11-3 所 示 。 


Actor 和 message 从 邮箱 取出 Actor 
被 分 发 给 线程 执行 和 Actor 对 应 的 消息 


图 11-3 Balancing Dispatcher 工作 原理 图 


E 


4. Calling Thread Dispatcher 

这 种 类 型 的 Dispatcher 主要 用 于 测试 ， 并 且 在 当前 线程 中 运行 任务 ， 不 会 创建 新 的 线 
程 。 主 要 有 以 下 特点 : 

e 每 一 个 Actor 都 有 自己 的 邮箱 。 

e 该 Dispatcher 可 以 被 任意 数量 的 Actor 共享 。 
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e 该 Dispatcher 由 调用 线程 支持 。 


邮箱 用 于 保存 接收 的 消息 ， 在 Akka 中 除了 使 用 BalancingDispatcher 分 发 髓 的 Actor 以 


外 ， 每 个 Actor 拥有 自己 的 邮箱 。 使 用 同一 个 BalancingDispatcher 的 所 有 Actor 共享 同一 个 邮 
箱 实 例 。 


邮箱 是 基于 Java concurrent 中 的 队列 来 实现 的 ， 这 种 队列 有 以 下 特点 : 
1) 阻塞 队列 : 队列 将 会 阻塞 ， 直 到 队列 空间 可 用 或 者 队列 中 有 可 用 元 素 。 
2) 有 界 队 列 : 队列 的 大 小 是 被 限制 的 ， 不 能 添加 超过 队列 大 小 的 元 素 到 队列 中 。 
Akka 上 自 带 一 些 缺 省 的 邮箱 实现 : 

e UnboundedMailbox。 

底层 是 一 个 java. util. concurrent. ConcurrentLinkedQueue。 

HE: 否 。 

有 界 : 否 。 

e BoundedMailbox。 

底层 是 一 个 java. util. concurrent. LinkedBlockingQueue。 

阻塞 : 是 。 

有 界 : 是 。 

® UnboundedPriorityMailbox。 

底层 是 一 个 java. util. concurrent. PriorityBlockingQueue。 

阻塞 : 是 。 

A: 否 。 

© BoundedPriorityMailbox。 

底层 是 一 个 java. util. PriorityBlockingQueue。 

阻塞 : 是 。 

有 界 : 是 。 

e 持久 邮箱 。 


Router 也 是 一 种 特殊 的 Actor， 它 将 收 到 的 消息 转发 给 其 他 的 Actor。 当 大 量 的 Actor 并 


行 处 理 流 入 的 消息 的 时 候 ， 路 由 Actor 将 消息 发 送 给 它 所 管理 的 被 称 为 “routers” 的 Actor, 
信息 在 Router 上 得 到 处 理 。Akka 自 带 一 些 定义 好 的 路 由 Actor; 


o 轮转 路 由 器 : akka. routing. RoundRobinRouter， 它 将 传人 的 消息 按照 轮转 的 顺序 发 送 给 
routers 。 

o 随机 路 由 需 : akka. routing. RandomRouter， 随 机 选择 一 个 router 并 将 消息 路 由 到 这 个 
router 上 o 

o 最 小 邮箱 路 由 需 : akka. routing. SmallestMailboxRouter， 该 路 由 需 将 会 在 routers 中 选择 
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邮箱 里 信息 最 少 的 router， 并 向 该 router 发 送 消息 。 
o j 86 Hat: akka. routing. BroadcastRouter， 将 相同 的 消息 广播 到 所 有 routers 中 。 
o (KpE H žr: akka. routing. ScatterGatherFirstCompletedRouter, Router 先 将 消息 广播 到 

所 有 routers, 返回 最 先 完成 任务 的 router 的 结果 给 调用 者 。 > 
Router 的 工作 原理 如 图 11-4 所 示 。 


消息 队列 


不 同 的 路 由 算法 将 消息 
转发 给 目标 Actor 


图 11-4 路 由 原理 图 


在 图 11-4 的 路 由 原理 图 中 ， 我 们 看 到 路 由 Actor 所 处 的 特殊 位 置 ， 路 由 Actor 将 收 到 的 
输入 信息 ， 通 过 不 同 的 路 由 算法 分 配 到 所 属 的 routers 中 进行 处 理 。 


路 由 的 使 用 ) 


要 使 用 路 由 ， 首 先 要 创建 路 由 ， 创 建 路 由 有 两 种 方式 : 通过 配置 文件 和 通过 代码 。 下 面 
将 演示 两 种 创建 路 由 的 方法 。 

使 用 配置 的 方式 创建 路 由 ， 首 先 在 配置 文件 中 配置 路 由 ， 配 置 文件 默认 加 载 项 目 根 目录 
下 的 application. conf 文件 ， 文 件 配置 如 例 11-1 所 示 。 

【 例 11-1) 路 由 配置 示例 。 


1. akka. actor. deployment | 

2 router | 

3 router = round — robin// #044 if FA A 

4. nr — of — instances =5//routers 个 数 为 5 个 
5 | 

@ 


在 配置 文件 中 ， 配 置 Router 的 类 型 是 round - robin 轮转 路 由 器 ， 路 由 routers 实例 个 数 为 
5 an 配置 文件 中 配置 好 了 router, 只 需要 在 代码 中 引用 配置 好 的 router 即 可 : 


1. val router = system. actorOf( Props[ ExampleActor |. withRouter( FromConfig( ) ) ," router" ) 


第 二 种 方式 是 使 用 代码 来 创建 路 由 ， 并 限制 能 创建 的 routers 的 数量 : 
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1. val routerl = system. actorOf( Props[ ExampleActorl |. withRouter( 
2. RoundRobinRouter( nrOfInstances =5 ) ) ) 


也 可 以 在 创建 路 由 Actor 的 时 候 ， 给 定 routers: 


val actorl = system. actorOf( Props[ ExampleActorl | ) 
val actor2 = system. actorOf( Props[ ExampleActorl | ) 
val actor3 = system. actorOf( Props[ ExampleActor1 | ) 
valroutees = Vector| ActorRef | ( actor] , actor2 , actor3 ) 


val router2 = system. actorOf( Props[ ExampleActor1 |. withRouter( 


Ns A a BE 


RoundRobinRouter( routees = routees ) ) ) 
一 旦 有 了 路 由 Actor， 就 可 以 像 使 用 普通 Actor 一 样 使 用 了 : 
router! MyMsg 


路 由 Actor 将 发 挥 路 由 的 作用 ， 将 收 到 的 消息 转发 给 routers。 


oS 远 程 部 署 router 


除了 可 以 将 查找 到 的 远程 Actor EX router, 也 可 以 让 路 由 Actor 将 自己 创建 的 子 Actor 
部 署 到 一 组 远程 主机 上 ， 这 种 部 署 以 round - robin 的 方式 执行 。 要 完成 这 个 工作 ， 要 将 配置 
HÆTTE RemoteRouterConfig 中 ， 并 附 上 作为 部 署 目标 的 结 点 的 远程 地 址 。 要 使 用 远程 地 址 ， 
需要 在 classpath 中 包括 akka - remote 模块， 远程 部 署 router 示例 如 例 11-2 所 示 。 

【 例 11-2】 远程 部 署 router 示例 


本 importakka. actor. | Address , AddressFromURIString } 
pi val addresses = Seq ( 
3. Address( "akka" ," remotesys" ," otherhost" , 1234) ,//Address 设置 ,参数 分 别 是 协议 .远程 
ActorSystem 系统 名 称 IP 地址 .端口 号 
4. AddressFromU RIString (" akka://othersys@ anotherhost:1234" ) ) 
a valrouterRemote = system. actorOf( Props[ ExampleActorl |. withRouter( 
6. RemoteRouterConfig( RoundRobinRouter(5) ,addresses) ) )// 远 程 部 署 带路 由 的 ExampleActor 


2 Supervision 和 Monitoring 


监管 描述 的 是 Actor 之 间 的 关系 : 监管 者 将 任务 委托 给 下 属 并 对 下 属 的 失败 状况 进行 响 
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应 。 当 一 个 下 属 出 现 了 失败 (如; 抛 出 一 个 异常 ) 时 ， 它 会 将 自己 和 自己 所 有 的 下 属 挂 起 ， 
然后 向 自己 的 监管 者 发 送 一 个 提示 失败 的 消息 。 取 决 于 所 监管 的 工作 性 质 和 失败 的 性 质 ， 监 
管 者 可 以 有 4 种 基本 选择 : 

1) 让 下 属 继续 执行 ， 保 持 下 属 当前 的 内 部 状态 。 

2) 重启 下 属 ， 清 除 下 属 的 内 部 状态 。 

3) 永久 地 终止 下 属 。 

4) 将 失败 沿 监管 树 向 上 传递 。 

在 Actor 的 监管 体系 中 ， 始 终 把 每 一 个 Actor 视 为 整个 监管 树 形 体系 中 的 一 部 分 ， 这 解 
释 了 第 4 种 选择 存在 的 意义 〈 因 为 一 个 监管 者 同时 也 是 其 上 方 监 管 者 的 下 属 ) ， 并 且 隐 含 在 
前 3 种 选择 中 ， 让 Actor 继续 执行 的 同时 也 会 继续 执行 它 的 下 属 ， 重 启 一 个 Actor 也 必须 重 
启 它 的 下 属 ， 相 似 地 ， 终 止 一 个 Actor， 会 终止 它 所 有 的 下 属 。 需 要 强调 的 是 一 个 Actor KJER 
认 行 为 是 在 重启 前 终止 它 的 所 有 下 属 ， 但 这 种 行为 可 以 用 Actor 类 的 preRestart 回调 函数 来 
重 写 ， 对 所 有 子 Actor 的 递归 重启 操作 在 这 个 回调 函数 之 后 执行 。 

每 个 监管 者 都 配置 了 一 个 函数 ， 它 将 所 有 可 能 的 失败 原因 (如 : Exception) 翻译 成 以 
上 4 种 选择 之 一 。 但 值得 注意 的 是 ， 这 个 函数 并 不 将 失败 Actor 本 号 作为 输入 。 或 许 你 很 快 
会 发 现在 有 些 结构 中 这 种 方式 看 起 来 不 够 灵活 ， 因 为 试图 在 某 一 个 层次 做 太 多 事情 ， 这 个 层 
次 会 变 得 复杂 难以 理解 ， 这 时 推荐 的 方法 是 增加 一 个 监管 层次 。 因 此 应 对 不 同 的 下 属 采 取 不 
同 的 策略 。 在 这 个 问题 上 要 理解 的 一 点 是 ， 监 管 是 为 了 组 建 一 个 递归 的 失败 处 理 结构 。 

Akka 实现 的 是 一 种 类 似 于 “ 父 监管 ”的 策略 。Actor 只 能 由 其 他 的 Actor 创建 ， 而 顶部 
的 Actor 是 由 库 来 提供 的 ， 每 一 个 创建 出 来 的 Actor 都 由 它 的 “父亲 ”所 监管 。 这 种 限制 使 
得 Actor 的 树 形 层次 拥有 明确 的 形式 。 这 也 同时 保证 了 Actor 不 会 成 为 孤儿 或 者 拥有 在 系统 
外 界 的 监管 者 〈 被 外 界 意 外 捕获 ) 。 还 有 ， 这 样 就 产生 了 一 种 对 Actor 应 用 (或 其 中 子 树 ) 
自然 又 干净 的 管理 过 程 。 

在 Actor System 启动 的 时 候 至 少 会 启动 3 个 Actor, WB 11-5 所 示 。 


user 监 管 system 监 管 


用 户 定义 Actor 层 次 系统 支持 Actor 层 ? 


图 11-5 Actor System 的 启动 


在 路 径 树 的 最 顶部 是 根 监管 者 ， 所 有 的 Actor 都 可 以 通过 它 来 找到 。 在 第 二 个 层 上 是 以 
下 这 些 ， 
e" /user" 是 所 有 由 用 户 创 建 的 顶级 Actor 的 监管 者 ， 用 ActorSystem. actorOf 创建 的 Ac- 
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tor 在 其 下 一 个 层次 。 

e " /system'" 是 所 有 由 系统 创建 的 顶级 Actor (如 日 志 监 听 器 或 由 配置 指定 在 Actor 系统 

启动 时 自动 部 署 的 Actor) 的 监管 者 。 

e" /deadLetters"” 是 死 信 Actor， 所 有 发 往 已 经 终止 或 不 存在 的 Actor 的 消息 会 被 送 到 

这 里 。 
e"/temp" 是 所 有 系统 创建 的 短 时 Actor (例如 那些 用 在 ActorRef. ask 的 实现 中 的 Actor) 
的 监管 者 。 

e "/remote" 是 一 个 人 造 的 路 径 ， 用 来 存放 所 有 其 监管 者 是 远程 Actor 引用 的 Actor, 

TE Akka 中 ,使 用 了 “Let It Crash” 模 型 ,那么 使 用 这 种 模型 ， 怎 样 管理 众多 的 Actor 
WE? 其 实在 Akka 中 ,使 用 了 监管 策略 。 有 两 种 监管 策略 ,分别 是 : One - For -One Fil All - 
For — One, 

当 一 个 Actor 崩 演 或 者 抛 出 异常 的 时 候 ， 谁 去 监管 处 理 异常 呢 ? Fis 确保 每 一 
个 Actor 都 知道 去 处 理 失 败 ， 并 且 在 编写 程序 的 时 候 要 预防 可 能 出 现 的 异常 ， 因 此 每 一 
Actor 中 必须 增加 异常 处 理 代码 ， 以 便 对 各 种 各 样 的 异常 进行 处 理 ， 随 着 恒基 的 增加 ， 代码 
将 变 得 越 来 越 庞大 ， 维 护 起 来 也 越 来 越 困 难 。 

为 了 让 Actor 适合 大 规模 的 编程 ， 必 必须 让 Actor 之 间 相 互 协作 ， 将 任务 分 步 处 理 ， 但 是 
问题 随 之 而 来 ， 如 果 一 个 Actor 发 生 了 异常 导致 处 理 失败 ， 该 怎么 做 ?另外 的 Actor 如 何 感 
知 到 其 中 一 个 Actor 发 生 了 异常 ? 所 有 协作 的 Actor 如 何 保 证 数据 的 一 致 性 ? 

为 了 使 Actor 计算 单元 保持 最 小 并 且 仍然 提供 一 种 机 制 处 理 失 败 ，Akka Actor 模型 优 
化 成 一 种 树 状 的 层次 模型 。Actor 是 一 个 纯粹 的 计算 单元 ，Actor 模型 的 目的 就 是 将 大 的 任务 
划分 成 小 的 任务 ， 直到 该 任务 可 以 在 一 个 Actor 中 被 处 理 。 为 了 管理 这 些 特殊 的 Actor, 必须 
使 用 监控 Supervision, Actor 的 监控 树 形 层次 如 图 11-6 所 示 。 


监管 Actor2 


Dh, UN. 


从 属 Actor 


FA 11-6 Supervisor 监控 层次 


在 树 形 层次 的 Actor 系统 结构 中 ， 每 一 个 Actor 都 知道 自己 要 处 理 哪 种 类 型 的 数据 ， 
知道 重新 运行 失败 的 数据 。 当 Actor 不 知道 怎么 去 处 理 一 个 特殊 的 消息 或 者 遇 到 非 正 常 的 
运行 状态 时 ， 它 将 会 向 Supervisor 发 送 消息 寻求 帮助 ， eee 结构 允许 问题 以 冒 
泡 的 方式 向 上 传送 ， 直 到 问题 可 以 被 解决 为 止 。 需 要 注意 的 是 ， 个 Actor 有 且 只 有 一 
个 Supervisor。 


Akka 的 容错 机 制 正 是 建立 在 这 种 树 形 的 层次 结构 和 Supervisor 之 上 的 。Akka 提供 了 一 
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个 默认 的 Supervisor “user”， 它 是 所 有 用 户 创 建 Actor 的 根 Supervisor, 
Supervisor 提供 了 不 同 Actor 之 间 的 依赖 关系 ，Supervisor 的 使 命 是 分 配 任 务 给 监控 的 Ac- 
tors ， 这 些 Actors 称 为 Subordinates， 并 且 要 管理 下 属 的 生命 周期 。 当 管理 的 下 属 发 生 异 常 
时 ，Supervisor 将 会 收 到 通知 ， 并 且 处 理 失 败 。 当 Supervisor 收 到 下 属 失败 通知 的 时 候 ， 可 能 > 
会 采取 以 下 操作 : 
è Restart 下 属 Actor; 杀 死 当前 的 Actor 实例 ， 并 且 重 新 实例 化 一 个 Actor, 
e Resume 下 属 Actor: 当前 的 Actor 将 会 保持 当前 的 状态 ， 就 跟 什么 都 没有 发 生 过 一 样 。 
e Terminate 下 属 Actor; 永久 地 终止 下 属 Actor, 
e Escalate: 将 失败 继续 上 抛 至 自己 的 Supervisor。 
如 图 11-7 所 示 。 


Termlnate Escalate 


MJB Actor Actor 


图 11-7 Supervisor 的 几 种 处 理 


当 Subordinate 发 生 异 常 的 时 候 ，Supervisor 有 4 种 不 同 的 处 理 方式 。Akka 提供 了 两 种 监 
管 策略 。 分 别 是 : One - For - One - Strategy 和 All - For - One - Strategy, 

监管 策略 提供 了 当 子 Actor 处 理 失 败 或 者 发 生 异 常 的 时 候 怎 样 去 处 理 的 实现 。One - 
For - One — Strategy 意味 着 监管 策略 只 作用 在 失败 的 子 Actor E, Al - For - One - Strategy 意 
味 着 监管 策略 作用 在 所 有 的 子 Actor 上 。 

All - For - One - Strategy 监管 策略 适用 于 紧密 相互 依存 的 Subordinate 中 。 例 如 ， 你 正在 
操作 库存 信息 ， 这 些 操作 分 为 几 步 ， 当 其 中 一 步 发 生 蜡 常 时 ， 必 将 导致 其 他 Actor 状态 的 异 
党 , 在 这 种 情况 下 重启 所 有 的 Actor 才能 够 保证 状态 的 一 致 性 。 当 你 的 Actor 层次 结构 中 
使 用 这 种 监管 策略 的 时 候 ， 一 个 Actor 发 生 异 常 导致 失败 后 ，Supervisor 将 会 发 送 命令 停止 并 
重启 Actor， 但 这 并 不 意味 着 所 有 兄弟 姐妹 Actor 都 将 重启 ， 这 由 Supervisor 所 管理 和 决定 。 


E i Baan Monitoring ) 


生命 周期 监控 是 向 监控 Actor 发 送 Terminated 消息 。 如 果 没 有 处 理 ， 默 认 抛 出 一 个 
DeathpactException, Monitoring 对 于 监控 器 要 结束 子 Actor 但 是 又 不 能 够 简单 地 重启 Actor 这 
种 场景 特别 有 用 。 
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Akka 中 的 事务 


虽然 Akka 中 的 Actor 基于 “Let It Crash” 的 原理 和 supervisor 监管 的 模型 ， 并 且 基 于 这 
种 原理 和 监管 模型 的 Actor 可 以 很 好 地 工作 ， 但 是 当 一 个 Actor 要 处 理 一 个 请 求 的 几 个 任务 
的 时 候 ， 这 种 “Let It Crash” 的 模型 很 可 能 会 使 结果 偏离 初衷 。 例 如 ， 从 一 个 账户 转 钱 到 另 
外 一 个 账户 ,为 了 完成 这 个 任务 ， 要 做 两 个 动作 。 首 先 要 从 一 个 账户 取出 金额 ,然后 存 人 另 
外 一 个 账户 ,但 是 如 果 在 存 入 账户 正确 完成 之 前 ,发 生 了 不 可 预知 的 异常 且 人 允许 “Let It 
Crash”， 那 么 这 样 做 就 会 使 一 个 账户 丢失 ， 而 另 一 个 账户 却 没有 存 人 钱 。 为 了 解决 这 个 问题 
必须 确保 这 两 个 动作 要 么 全 部 成 功 ， 要 么 全 部 失败 。 为 此 ，Akka 中 引入 了 事务 (transac- 
tion) 的 概念 。 在 一 个 transaction 中 ， 可 以 包含 多 个 action， 并 且 从 整体 来 看 ， 它 们 一 起 的 表 
现 就 跟 一 个 action 的 表现 一 样 ， 要 么 全 部 成 功 ， 要 么 全 部 失败 ， 这 就 是 transaction 的 概念 。 
一 个 transaction 必须 具有 以 下 特点 : 
e 原子 性 : MAH action 要 么 全 部 成 功 ， 要 么 全 部 失败 。 一 个 transaction 中 的 所 有 action 
在 整体 上 的 表现 就 跟 一 个 action 的 表现 一 样 。 
e 一 致 性 : 在 transaction 结束 后 ， 系 统 必须 保持 一 致 性 的 状态 。 例 如 银行 转 款 ， 在 转 款 
前 两 个 账户 的 总 金额 应 该 和 转 款 后 两 个 账户 的 总 金额 一 样 。 
e 隔离 性 ， 在 一 个 transaction 成 功 或 失败 之 前 , 产生 的 中 间 数 据 对 于 系统 中 的 其 他 
transaction 不 可 见 。 
o 持久 性 : transaction 操作 的 结果 持久 化 保存 。 
事务 的 这 些 特点 被 称 为 事务 的 ACID 特性 ， 事 务 的 目的 是 保持 共享 状态 的 一 致 性 。Akka 
中 的 Agent 和 Actor 为 了 保证 共享 状态 的 一 致 性 也 需要 实现 事务 ， 为 了 实现 这 样 的 功能 ， 
Akka 使 用 了 STM (Software Transactional Memory) 软件 事务 内 存 的 概念 。STM 实现 了 ACID 
中 的 原子 性 、 一 致 性 和 隔离 性 三 个 特性 ， 并 且 提 供 了 比 传统 锁 机 制 更 好 的 性 能 。 下 面 就 来 看 
看 Akka 中 的 STM, 


sm p 


STM (Software Transactional Memory) 软件 事务 内 存 ， 是 一 种 多 线程 之 间 数 据 共 享 的 同 
步 机 制 。 对 于 并 行 计算 编程 而 言 ， 只 要 将 线程 中 需要 访问 共享 内 存 的 关键 逻辑 部 分 划分 出 来 
封装 到 一 个 事务 中 即 可 ， 编 程 人 员 不 再 需要 关心 相关 的 同步 一 致 性 问题 ， 全 部 交 由 事务 内 存 
系统 来 出 处 理 。 事 务 内 存 系统 要 求 保证 操作 的 原子 性 和 独立 性 。 原 子 性 要 求 事务 必须 被 完整 
执行 或 不 被 执行 ， 独 立 性 则 要 求 在 事务 递交 前 ， 外 部 不 能 得 知事 务 内 部 的 状态 ， 即 中 间 不 稳 
定 态 。 

这 里 举 一 个 事务 应 用 的 现实 情景 ， 例 如 有 一 个 售票 网 站 ， 正 好 有 两 个 人 在 买 票 ， 当 第 一 
个 人 选中 某 个 座位 ， 在 下 单 买 走 它 之 前 ， 另 外 一 个 人 正好 也 选中 了 这 个 座位 ， 那 么 问题 就 发 
生 了 ， 同 一 位 置 的 票 被 卖 了 两 次 ， 显 然 在 现实 生活 中 这 是 不 容许 发 生 的 ， 因 为 这 产生 了 冲 
突 。 如 何 解决 这 种 冲突 呢 ? 必须 提供 某 种 手段 去 阻止 这 种 事情 的 发 生 ，STM 正 是 为 此 而 生 ， 
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它 会 保护 共享 数据 ， 并 提供 与 传统 的 锁 机 制 不 同 的 实现 ， 以 提升 性 能 。 

传统 的 保护 共享 数据 的 方法 是 ， 当 一 个 线程 去 访问 共享 数据 的 时 候 ， 会 阻塞 其 它 所 有 和 欲 
访问 该 数据 的 线程 进入 临界 区 ， 这 种 机 制 被 称 为 “ 锁 ”。 传统 的 这 种 “ 锁 ” 机 制 ， 在 Java 
或 Scala 语言 中 以 synchronized 同步 代码 块 的 形式 来 表现 。 例 11-3 是 Scala 中 创建 临界 区 的 S 
例子 。 

【 例 11-3] Scala 中 创建 synchronized 同步 代码 块 示例 。 


1. val reservedSeat = seats. synchronized | //seats 的 synchronied 构建 临界 区 

2 head = seats. head // 取 出 第 一 个 元 素 

3. seats = seats. tail //seats 重新 赋值 为 第 一 个 元 素 之 后 的 所 有 元 素 
4 head 

> 


Synchronized 保证 同时 只 有 一 个 线程 进入 临界 区 执行 。 当 一 个 线程 获得 了 seats 上 面 的 锁 
之 后 ， 只 有 这 个 线程 可 以 进入 seats 的 synchronized 块 中 执行 ， 执 行 完 毕 之 后 会 释放 seats 上 
面 的 锁 ， 之 后 其 他 线程 才能 够 获得 seats 上 的 锁 并 进入 synchronized 中 执行 。 因 此 所 有 的 线程 
在 synchronized 块 上 面 是 依次 串 行 执行 的 ， 保 证 了 在 同一 时 刻 只 有 一 个 线程 访问 共享 变量 ， 
确保 了 共享 变量 的 一 致 性 。 但 是 这 种 锁 机 制 也 存在 一 个 问题 ， 如 果 线 程 只 是 想 去 读 共享 变量 ， 
当 遇 到 synchronized 的 时 候 也 必须 要 等 待 ， 这 就 降低 了 系统 的 整体 性 能 ， 并 且 在 大 多 数 时候 没 
有 线程 使 用 共享 变量 也 会 产生 锁 ， 这 样 的 锁 称 为 “悲观 锁 * ， 因 为 其 假设 在 任何 时 候 都 可 能 会 
有 线程 访问 并 修改 共享 变量 。 与 “悲观 锁 ” 对 应 的 是 “乐观 锁 ” ， 其 认为 在 访问 和 修改 共享 变 
量 的 时 候 不 会 产生 任何 问题 ， 因 此 执行 代码 的 时 候 不 会 有 任何 锁 。 在 “乐观 锁 ” 的 实现 中 ， 
当 线 程 离开 临界 区 域 的 时 候 ， 系 统 会 检测 可 能 的 更 新 冲突 ， 如 果 这 里 没有 更 新 冲突 ， 那 么 直接 
提交 事务 ， 如 果 检 测 到 有 冲突 发 生 ， 那 么 所 有 的 改变 都 会 回 深 并 尝试 重新 执行 临界 区 代码 。 

在 STM 中 使 用 的 就 是 “乐观 锁 ”，STM 能 防止 因 多 线程 访问 共享 变量 造成 的 数据 不 一 
致 性 问题 ， 其 关键 就 是 要 知道 共享 数据 在 事务 中 是 否 已 经 被 改变 ， 为 了 检测 这 种 改变 ，Ak- 
ka 中 的 做 法 是 将 共享 变量 包装 到 STM 的 引用 中 ， 如 例 11-4 所 示 。 

【 例 11-4] STM 包装 共享 变量 。 


1. import concurrent. stm. Ref 


2. val seats = Ref(Seq{ Seat] ( ) ) 


现在 要 想 获得 或 者 更 新 共享 变量 ， 只 需要 简单 地 使 用 seats( ) 即 可 。 更 新 seats 如 例 11-5 
所 示 。 
【 例 11-5】 更 新 共享 变量 示例 。 


seats( ) = seats( ). tail 


上 面 处 于 Ref 包装 中 的 seats 变量 ， 只 能 够 在 atomic 块 中 使 用 (这 是 Scala 实现 STM 的 
语法 规定 ) ， 在 atomic 块 中 写 的 代码 将 被 视 为 一 个 原子 命令 被 执行 ， 并 且 在 编译 的 时 候 
atomic 里 需要 一 个 隐 式 变量 来 为 Ref 中 的 冲突 做 检测 。 如 例 11-6 所 示 为 在 atomic 块 中 使 用 


Ref 变量 。 
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【 例 11-6】 在 atomic 块 中 使 用 Ref 变量 示例 。 


1. import concurrent. stm. _ 

2. val seats = Ref( seats) // 使 用 Ref (38 tt 
3. val getSeat = atomic | impliclit txt => | 

4 val head = seats( ). head /7/ 取 出 第 一 个 值 

5. seats( ) = seats( ). tail // 重 新 赋值 

0 head 

7 | 

os 


上 面 的 代码 跟 synchronized 做 的 是 同样 的 事情 ， 但 是 锁 工 作 的 机 制 完全 不 相同 ， 因 为 
STM 使 用 的 是 “乐观 锁 ”， 而 synchronized 使 用 的 是 “悲观 锁 ” 。 使 用 synchronized 临界 区 只 
会 执行 一 次 ， 但 是 使 用 STM 的 atomic 块 执 行 相同 的 逻辑 ， 临 界 区 代码 可 能 会 执行 多 次 ， 这 
是 因为 在 atomic 块 执 行 完 成 之 后 ， 有 一 个 检查 操作 将 会 执行 ， 这 个 操作 会 去 检查 是 否 有 冲 
突 发 生 。 

在 STM 中 使 用 “乐观 锁 ” 实 现 了 ACID 的 前 3 个 特性 ， 没 有 实现 “持久 化 ”特性 ， 
为 STM 都 发 生 在 内 存 中 ， 内 存 中 的 事务 永远 都 不 会 持久 化 。 


使 用 STM 事务 ) 


在 上 一 个 小 节 中 ， 简 述 了 STM 的 基本 功能 和 实现 原理 ， 需 要 在 atomie 块 中 引用 共享 变 
量 。 但 是 当 用 户 只 是 想 简 单 的 读 取 一 个 共享 变量 ,按照 上 面 的 描述 ， 需 要 创建 一 个 atomic 
块 ， 这 就 意味 着 执行 一 个 简单 的 读 取 操作 需要 写 大 量 的 代码 。 有 没有 更 简单 一 点 的 方法 呢 ? 
在 这 里 可 以 使 用 视图 ， 通 过 使 用 Ref. View， 可 以 使 书写 的 代码 量 最 小 化 并 且 有 益 于 提高 性 
能 。 使 用 “single” 方 法 得 到 一 个 Ref 的 View， 然 后 使 用 View 的 get 方法 返回 View 的 值 。 例 
如 ， 要 得 到 当前 可 用 的 座位 ， 可 以 使 用 下 述 方式 。 


seats. single. get //single 方法 返回 类 型 为 Ref View ,再 调用 View 上 的 get 方法 获取 值 


single 方法 的 返回 类 型 时 Ref. View， 通 过 single 得 到 seats 的 视图 。 使 用 视图 的 好 处 是 代 
但 不 必 放 在 atomic 代码 块 中 。 

既然 可 以 通过 视图 获得 共享 变量 的 值 ， 当 然 也 可 以 使 用 视图 更 新 共享 变量 的 值 。 如 下 
所 示 。 


val myseat = seats. single. getAndTransform( _. tail). head//seats 此 时 是 Ref 类 型 ,调用 Ref 上 的 single 
方法 得 到 视图 View, 然 后 调用 View 上 的 getAndTransform(_. tail) 方 法 更 新 seats 的 值 ,更 新 后 的 值 
为 seats 中 除了 第 一 个 元 素 以 外 的 所 有 元 素 。 最 后 调用 head 方法 ,返回 原 seats 的 第 一 个 元 素 。 


使 用 Ref. view 使 代码 更 加 紧 竣 ,并 且 使 临界 区 更 小 ， 更 小 的 临界 区 意味 着 更 低 的 冲突 


产生 的 可 能 性 ， 有 利于 提高 系统 的 整体 性 能 。 
EIE, MAT STM 中 的 部 分 特性 ，STM 唯一 可 能 需要 考虑 的 缺点 是 临界 区 代码 可 能 会 


执行 多 次 。 所 有 的 共享 变量 都 可 以 被 包装 成 STM 引用 。 


| 读 取 Agent 事务 中 的 数据 D 


i 


= 


Akka 中 的 Agent 和 Actor 都 是 基于 STM 来 处 理事 务 的 。 这 里 先 简 单 介绍 一 下 Akka 中 的 
Agent, 顾名思义 , Agent 是 代理 的 意思 使 用 代理 模式 实现 。Akka 中 的 Agent 提供 了 一 个 独 
立 于 位 置 的 异步 的 操作 ， 所 有 对 Agent 的 操作 都 是 异步 操作 。 要 使 用 Akka Agent， 需 要 在 项 
目 中 添加 Akka Agent 模块 ， 可 以 到 http://mvnrepository. com/tags/maven 搜索 Akka Agent, 
找到 对 应 版 本 的 Akka Agent 并 下 载 Jar 包 ， 将 下 载 的 Jar 添加 到 工程 中 ; 若 你 新 建 的 项 目 是 
SBT 项 目 ， 可 以 直接 在 SBT 项 目 中 的 build. sbt 中 添加 : libraryDependencies + = 
"com. typesafe. akka" % "akka -agent_2.10" % "2.3.14", SBT 工具 将 自动 下 载 对 应 的 Jar 
包 。 先 来 了 解 一 下 Agent 中 的 一 些 基 本 的 操作 。 

1) 创建 Agent。 创 建 Agent 很 简单 ， 首 先 需 要 引入 一 个 隐 式 变量 ，Agent 对 象 的 apply 方 
法 要 用 到 该 隐 式 变量 ， 然 后 需要 引入 Agent 对 应 的 包 ，Agent 创建 如 下 所 示 。 


1. import scala. concurrent. ExecutionContext. Implicits. global /引入 隐 式 变量 
2. import akka. agent. Agent // 引 入 Agent 的 包 


3. val agent = Agent(50) // 创 建 Agent 


2) 读 取 Agent。 读 取 Agent 中 的 值 有 两 种 方法 ， 第 一 种 是 直接 使 用 agent get 方法 ， 第 
二 种 是 使 用 agent( ) ， 其 实 查 看 源 代码 可 以 知道 ，agent( ) 会 调用 apply 方法 ，apply WAP 
然 是 调用 的 get 方法 。 

3) 更 新 Agent 更 新 Agent 的 值 ， 可 以 使 用 send 或 者 alter 方法 。 

使 用 send 有 如 下 方式 : 


1. agent send 60 // 直 接 将 agent 值 更 改 为 60 
2. agent send (_+10) ”// 发 送 一 个 函数 ,agent 将 执行 该 函数 ,执行 完成 之 后 agent 的 值 为 60 
3. agent sendOff( ) //sendOft 方法 ,发 送 一 个 可 执行 的 线程 到 agent 中 


使 用 alter 如 如 下 的 方式 : 


1. val futurel :Futurel Int] = agent alter 60 // ASE agent 值 改 为 60 ,立即 返回 一 个 Future 
2. val future2: Future [ Int] = agent alter (_ +10) // 发 送 函 数 ,agent 执行 该 函数 ,立即 返回 一 
个 Future 
3. val future3 :Future[ Int] = agent sendOff( ) // 发 送 一 个 可 执行 的 线程 到 agent 中 ,立即 返回 
一 个 Future 


接 下 来 ， 将 详细 介绍 Akka 的 Agent Fil Actor 事务 中 数据 的 操作 。 

从 Agent 事务 中 读 取 数 据 ， 不 涉及 对 数据 的 更 新 ， 因 此 没有 必要 将 共享 变量 包装 到 一 个 
STM 的 引用 中 。 例 11-7 F, Demo 类 里 面 定 义 了 run 方法 ，run 方法 中 使 用 yield 关键 字 产 生 
出 20 个 座位 并 存放 到 seats 中 ， 在 Future 块 中 移 除 seats 列表 的 前 面 10 个 元 素 ， 并 调用 
Thread. sleep 方法 使 线程 睡眠 S0ms。 和 定义 一 个 变量 nrRuns， 用 于 记录 临界 区 代码 执行 次 数 ， 


在 atomic 中 将 检测 冲突 并 触发 临界 区 代码 重新 执行 。 通 
验证 临界 区 中 的 代码 在 发 生 冲突 的 情况 下 将 会 执行 多 次 
【 例 11-7】 读 取 Agent 事务 中 的 数据 示例 。 


语言 基础 与 开发 实战 


过 此 例 展示 Agent 中 数据 的 读 取 ， 并 


o 


1. import java. util. concurrent. TimeUnit 

2. import akka. agent. Agent 

3. import scala. concurrent. duration. Duration 

4. import scala. concurrent. stm. _ 

5. import scala. concurrent. | Await, Future} 

6. import scala. concurrent. ExecutionContext. Implicits. global 

7. case class Seat(seatNumber; Int) |} // 定 义 座位 类 

8. class Demo | 

9. def run( ) ; Unit = | 

10. val seats = for (i <0 until 20) yield Seat(i) 

11. //yield 产生 20 个 可 用 座位 

I2 val seatsAgent = Agent( seats ) 

13. // 使 用 Agent 产生 座位 的 代理 

14. val future = Future | 

15. for (i<-0 until 10) // 移 除 10 个 座位 
16. | 

17. seatsAgent send (_. tail) 

18. | 

19. Thread. sleep( 50) // 线 程 睡眠 50ms 
20. } 

2A var nrRuns =0 // 运 行 次 数 

DY val mySeats = atomic | implicit txn > | 

23% nrRuns += 1 // 次 数 加 1 

24. val currentList = seatsAgent. get // 得 到 当前 可 用 座位 数 
25: Thread. sleep( 100) // 线 程 睡眠 100ms 
26. seatsAgent. get. head // 触 发 检查 

27. | 

28. | 

29. Await. ready ( future, Duration. create(1, TimeUnit. SECONDS) ) 

30. println( "mySeats:" +mySeats +" nrRums:" + nrRuns) 

31. } 

Wa n 

33. object Demo | 

34. def main( args; Array[ String] ) | 

35. val demo = new Demo 

36. demo. run( ) 

Bie | 
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例 11-7 P, Æ atomic 块 中 首先 通过 seatsAgent get 得 到 当前 的 座位 列表 ， 然 后 
Thread. sleep(100 ) 使 线程 睡眠 100 ms， 最 后 通过 seatsAgent. get. head 获得 可 用 座位 列表 的 
firstSeat。 在 Await. ready ( future , Duration. create ( 1 ,TimeUnit SECONDS) ) 执行 的 时 候 ，future 


线程 先 将 可 用 座位 减 了 10 个 。 当 atomic 块 中 的 睡眠 100 ms 之 后 ，seatsAgent. get. head 将 会 > 


MERE, £I seatsAgent 状态 已 经 改变 ， 因 此 会 重新 执行 临界 区 代码 ，nrRuns 将 会 加 1， 
临界 区 代码 第 二 次 执行 检测 到 seatsAgent 没有 发 生 改 变 ， 因 此 直接 结束 执行 atomic。 所 以 程 
序 结束 后 nrRuns 一 定 是 大 于 1 A, firstSeats 的 座位 编号 也 是 10。 执 行 结果 如 图 11-8 所 示 。 


“C:\Program Files\Java\jdk1. 7. 
mySeats:S5eat(10) nrRums:2 


Process finished with exit code 0 


图 11-8 读 取 Agent 中 的 数据 ， 验 证 临界 区 中 的 代码 可 能 执行 多 次 


Agent 事务 中 数据 的 更 新 和 读 取 是 有 差别 的 ， 因 为 涉及 到 对 数据 状态 的 改变 ， 接 下 来 看 
看 Agent 事务 中 数据 的 更 新 。 


更 新 Agent 事务 中 的 数据 ) 


更 新 数据 与 读 取 数 据 稍 有 不 同 ， 当 在 一 个 事务 中 使 用 Agent 的 时 候 ，Agent 的 更 新 操作 
可 能 和 预期 的 有 所 不 同 ， 因 为 更 新 数据 时 可 能 遇 到 邻 区 代码 检测 到 冲突 ， 当 临界 区 检查 到 更 
新 冲突 的 时 候 ， 不 会 向 Agent 中 提交 事务 ， 因 此 即使 临界 区 代码 执行 多 次 ，Agent 中 的 值 只 
会 更 新 一 次 。 在 例 11-8 中 ,使 用 两 个 变量 updates 和 count, count 变量 用 于 触发 临界 区 代码 
的 重新 执行 ， 被 包 于 在 STM 引用 中 updates 变量 用 于 记录 Agent 的 更 新 次 数 。 例 11-8 代码 
如 下 所 示 。 

【 例 11-8】 更 新 Agent 事务 中 的 数据 示例 。 


import java. util. concurrent. TimeUnit 
import akka. agent. Agent 
import scala. concurrent. duration. Duration 
import scala. concurrent. stm. _ 
import scala. concurrent. | Await, Future} 
import scala. concurrent. ExecutionContext. Implicits. global 
class Update_Agent | 

def run( ) : Unit = | 

val updates = Agent(0) // 用 于 记录 Agent 更 新 的 次 数 

10. val count = Ref(0) // STM. 引用 ,用 于 触发 临界 区 代码 重新 执行 
11. val future = Future | //Future 块 中 使 count 的 值 变 成 10 
12. for (i <0 until 10) | 


So ee ST eae a gm De 


13. atomic { implicit txt > 
14. count( ) = count ( ) +1 
15. | 
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16. | 

17. Thread. sleep( 50) // 线 程 睡眠 50 ms 

18. } 

19. var nrRuns =0 // 用 于 记录 临界 区 代码 执行 次 数 

20. val num = atomic | implicit txt => | 

21. nrRuns += 1 // 次 数 加 1 

DD), updates send (_ +1) // 问 Agent 发 送 更 新 

23% val value = count( ) // 得 到 STM 引用 

24. Thread. sleep( 100) // 线 程 睡眠 100 ms 

25. count( ) // 得 到 STM 引用 ,检查 更 新 ,发 现 不 同 ,触发 atomic 临界 区 代码 重 试 
26. } 

27. | 

28. // nrRuns 运行 次 数 一 定 大 于 1 

29. //num 取得 票数 一 定 为 10 

30. //update. get 一 定 为 1,Agent 只 更 新 一 次 

31. Await. ready(updates. future( ) ，Duration. apply(1, TimeUnit. SECONDS) ) 
32. printiIn("nrRuns;" +nrRuns +" \tnum;" +num +" \tupdates:" + updates. get( ) ) 
33. } 

3 

35. object Update_Agent | 

36. def main( args: Array[ String] ) | 

Ms val demo = new Update_Agent 

38. demo. run 

39. } 

40.， | 


在 例 11-8 中 ， 定 义 了 一 个 名 为 updates 的 Agent 事务 ， 用 于 记录 更 新 的 次 数 。 定 义 了 一 


个 名 为 count 的 STM 引用 ， 用 于 触发 写 冲 突 ， 该 冲突 将 会 导致 事务 的 重新 执行 。atomic 块 将 
会 执行 至 少 两 次 ， 但 是 Agent 事务 只 会 更 新 一 次 ， 因 为 更 新 操作 只 有 在 事务 成 功 提交 的 时 候 
才 会 被 发 送出 去 。 更 新 操作 是 在 另外 一 个 线程 中 进行 的 ， 如 若 有 多 个 相同 的 事务 提交 ， 那 么 
将 会 有 多 个 更 新 操作 发 送 到 Agent 事务 中 ， 可 能 会 造成 Agent 事务 负担 过 重 。 事 实 上 在 STM 
事务 中 的 Agent 事务 是 不 能 够 解决 Agent 事务 负担 过 重 的 问题 的 ， 为 了 解决 这 个 问题 ， 需 要 
在 不 同 线程 中 使 用 相互 协作 的 atomic 块 ，Akka 中 可 以 通过 协作 事务 和 transactor 来 处 理 ， 这 
部 分 内 容 将 在 稍 后 介绍 。 


运行 结果 如 图 11-9 所 示 。 


“C:\Program Files\Java\jdk1. 7. 


nrRuns:2 num:10 updates:1 


Process finished with exit code 0 


Al 11-9 更 新 Agent 事务 中 的 数据 
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接 下 来 将 介绍 Akka Actor 中 的 事务 。 


= Actor 中 的 事务 
在 这 一 小 节 中 ， 将 介绍 Actor 中 的 事务 Actor 中 要 完成 事务 有 两 种 方法 ， 第 一 种 方法 是 2 
使 用 协作 事务 ， 顾 名 思 义 ， 协 作 事 务 是 经 过 多 方 协作 共同 完成 事务 ， 其 思路 是 将 事务 分 发 到 
每 一 个 Actor 中 ， 每 个 Actor 完成 事务 的 一 部 分 。 另 外 一 种 方法 就 是 使 用 transactor。 为 了 说 
明 协 作 事 务 和 transactor 的 使 用 ， 这 里 借助 账户 间 转 账 案例 来 说 明 。 

为 了 完成 转账 ， 需 要 从 一 个 账户 中 取出 钱 ， 然 后 将 钱 存 人 另外 一 个 账户 。 如 果 这 其 中 的 
任何 一 步 出 现 问题 ， 都 应 该 放弃 之 前 的 操作 ， 只 有 所 有 操作 都 成 功 ， 才 提交 事务 。 在 Akka 
中 ， 为 了 完成 这 样 的 操作 ， 需 要 使 用 协作 事务 。 它 的 原理 是 : 创建 一 个 原子 事务 ， 并 将 他 们 
分 发 到 多 个 Actor 上 ， 所 有 的 Actor 都 将 同时 开始 并 完成 事务 ， 这 使 得 它 在 整体 上 看 起 来 就 
像 一 个 大 的 原子 块 ， 每 一 个 Actor 上 的 事务 都 会 提交 ， 如 果 有 一 个 Actor 上 的 事务 失败 ， 整 
体 失 败 。 

这 里 我 们 借助 Coordinated 类 来 完成 协作 事务 。 这 里 我 们 分 步 描 述 。 

步骤 一 : 创建 Coordinated 

创建 Coordinated 需要 引入 akka. transactor. Coordinated 类 ， 创 建 代 码 如 下 所 示 。 


importakka. transactor. Coordinated 

import scala. concurrent. duration. _ 

importakka. util. Timeout 

implicit val timeout = Timeout(5 Second) /设置 隐 式 参数 
val transaction = Coordinated ( ) // 创 建 coordinated 


PAY or SE y 


要 创建 协作 事务 ， 需 要 将 协作 消息 发 送 到 每 一 个 Actor 上 ， 通 过 把 协作 事务 发 送 到 每 一 
zi> Actor, 使 得 参与 事务 的 每 一 个 Actor 自动 包含 到 这 个 协作 事务 中 来 。 

步骤 二 : 创建 Account 账户 

Account 继承 自 Actor 类 ， 在 receive 方法 中 根据 消息 类 型 ， 处 理 存 钱 和 取 钱 的 操作 。 同 
时 定义 了 三 个 消息 样本 类 ，GetoutMoney 类 表示 取 钱 操作 ，PutinMoney 表示 存 钱 操作 ，Get- 
Balance 表示 查询 余额 。 代 码 如 下 所 示 。 


case classCetoutMoney( amount; Int) // 取 钱 

case class PutinMoney( amount; Int) // 存 钱 
objectGetBalance // 查 询 余 额 
class Error( msg:String) extends Exception( msg) // 定 义 异 常 消息 


1 

2 

3 

4 

5. class Account( ) extends Actor | 
6 val balance = Ref(0) //STM 引用 D 
i def receive = | 

8 case coordinated @ Coordinated( GetoutMoney( amount) ) | 
9 coordinated atomic { implicit t 


10. valcurrentBalance = balance( ) 


语言 基础 与 开发 实战 


11. if (currentBalance < amount) | 

12. throw new Error( 

13. "余额 不 足 " ) 

14. } 

15. balance( ) = currentBalance - amount ® 
16. hI 

ie case coordinated @ Coordinated( PutinMoney( amount) ) | © 
18. coordinated atomic | implicit t 

19. balance( ) = balance( ) + amount 

20. H 

21. caseGetBalance => sender | balance. single. get © 
久光 } 

23% override defpreRestart( reason; Throwable, message: Option| Any]) | 

DAS self | Coordinated ( 

25. PutinMoney( balance. single. get) ) ( Timeout(5 seconds)) /7 发送 Coordinated 消息 
26. super. preRestart( reason, message ) 

ks H 


上 述 的 代码 中 ， 序 号 的 解释 如 下 : 

® balance 账户 必须 被 STM 引用 包装 起 来 。 

© 匹配 协作 事务 中 的 取款 消息 。 

© 事务 原子 块 的 开始 。 

@ 在 原子 块 中 更 新 账户 。 

© 匹配 协作 事务 中 的 存款 消息 。 

© 查询 账户 余额 信息 ， 并 将 余额 信息 返回 给 sender, 

账户 信息 是 一 个 共享 变量 ， 因 为 要 在 该 变量 上 面 进行 读 和 写 操作 ， 因 此 使 用 STM 的 Ref 
包装 。 在 receive 方法 中 , 匹配 消息 ， 这 些 消息 要 么 是 Coordinated ( GetoutMoney ( amont) ) 类 
型 ， 要 么 是 Coordinated( PutinMoney( amont) ) 类 型 ， 由 于 这 些 消 息 类 型 都 很 长 ， 于 是 使 用 @ 
符号 给 它们 取 了 别名 ， 取 别名 的 好 处 是 名 称 短 小 且 易 记 。 

在 Coordinated( GetoutMoney ( amont ) ) 和 Coordinated ( PutinMoney ( amont ) ) 两 种 类 型 消息 
对 应 的 case 分 支 中 ， 都 有 atomic 原子 块 ， 在 Coordinated( GetoutMoney(amont) ) 分支 的 atomic 
原子 块 中 ， 首 先 检查 账户 余额 是 否 满足 取款 要 求 ， 如 果 余 额 不 足 ， 抛 出 一 个 Error 的 异常 ， 
这 将 导致 事务 的 失败 ， 事 务 失 败 将 会 导致 Actor 的 重启 ， 以 恢复 Actor 内 部 的 一 致 性 。Actor 
在 重启 之 前 ， 自 动 调用 preRestart 方法 ， 在 preRestart 方法 中 ， 将 失败 的 原因 及 账户 的 余额 发 
送 给 查询 方 。 

Account 中 会 处 理 协作 事务 ， 那 协作 事务 是 从 哪里 发 送出 去 的 呢 ? 协作 事务 就 是 一 个 被 
视 为 整体 的 任务 的 集合 ， 从 整体 上 看 就 跟 一 个 指令 一 样 ， 既 然 有 指令 ， 那 谁 发 送 指令 呢 ? 4 
然 要 单独 实现 ， 下 面 就 实现 发 送 协作 事务 到 Account Actor 完成 存款 。 

步骤 三 : 发 送 协作 事务 到 Account Actor， 完 成 存款 操作 

发 送 协作 事务 到 Account, Account 是 一 个 Actor， 因 此 在 向 它 发 送 消息 之 前 ， 需 要 启动 
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Account Actor， 并 得 到 Account Actor 的 引用 。 下 面 是 向 Acount 发 送 协作 事务 ， 完 成 存款 的 
代码 。 


val account] = system. actorOf( Props[ Account | ) // JA Account Actor S 
implicit val timeout = new Timeout( 1 second) // 设 置 超时 的 隐 式 变量 
val transaction = Coordinated ( ) // 创 建 Coordinated 对 象 


transaction atomic | implicit t => 
account! | transaction( PutinMoney (amount = 100) ) // 在 atomic 块 中 发 送 协作 事务 
} 


DESE O E 


上 面 代码 中 ， 通 过 Coordinated 类 ， 创 建 transaction 对 象 ， 在 transaction 的 actomic 原子 块 
中 ， 向 accountl 发 送 transaction( PutinMoney( amount = 100) ) ， 发 送 的 transaction ( PutinMoney 
(amount =100) ) 消息 在 Account Actor 的 receive 方法 中 匹配 ， 并 且 匹 配 到 case coordinated @ 
Coordinated( PutinMoney( amount) ) 分支 ， 在 该 分 支 中 ，balance( ) = balance( ) + amount， 账 户 
余额 变 成 balance( ) 的 值 加 上 存 入 的 值 amount， 完 成 存款 操作 。 

因为 发 送 消息 的 操作 本 来 就 是 原子 性 的 ， 因 此 可 以 省 略 上 面 代 码 中 的 atomic 原子 块 ， 
上 面 的 代码 可 以 改 成 如 下 所 示 ， 以 使 代码 看 起 来 更 简洁 、 可 读 。 


1. val accountl = system. actorOf( Props[ Account ] ) 
2. implicit val timeout = new Timeout(1 second) 


3. account! ! Coordinated( PutinMoney( amount =100)) /直接 发 送 协作 事务 


另外 的 不 同 就 是 ， 由 于 发 送 事务 没有 放 和 人 atomic 原子 块 ， 因 此 线程 不 需要 等 待 事务 完 
成 之 后 才 执行 ， 这 提高 了 调用 线程 的 性 能 。 

现在 已 经 可 以 创建 协作 消息 ， 也 能 够 分 发 协作 事务 。 接 下 来 专门 创建 一 个 名 为 Transfer 
的 Actor 去 从 一 个 账户 转账 到 另外 一 个 账户 ， 最 后 给 请 求 返 回 消息 。 

步骤 四 : 创建 Transfer Actor 负责 转账 处 理 

创建 Transfer 的 目的 是 使 存款 、 取 款 和 转账 操作 得 到 统一 的 处 理 ， 而 不 需要 单独 分 开 编 
写 代 码 。 首 先 需要 定义 一 个 TransferMoney 的 样本 类 ， 该 类 中 有 转账 账户 fom: ActorRef, H 
标 账户 to: ActorRef 和 每 次 发 生 转 移 的 金额 3 个 属性 。 

Transfer 也 是 一 个 Actor， 因 此 必须 继承 Actor， 在 其 receive 方法 中 ,匹配 消息 ， 若 收 到 
的 消息 为 TransferMoney(amount,from,to) 消 息 ， 则 完成 转账 任务 。 代 码 如 下 所 示 。 


case class TransferMoney( amount: Int,from: ActorRef,to: ActorRef) 
class Transfer( ) extends Actor | 
implicit val timeout = new Timeout(1 second) 
override def preRestart( reason; Throwable, message: Option[ Any]) | 
message. foreach(_ => sender ! "处 理 失败 " ) 

super. preRestart( reason, message ) 


| 


def receive = } 


Ree oe esl MEN A pe 


caseTransferMoney( amount, from, to) 之 | 


语言 基础 与 开发 实战 


10. val transaction = Coordinated( ) // 创 建 coordinated 

11. transaction atomic | implicit t => 

12. from | transaction( GetoutMoney( amount) ) //from 账户 扣除 amount 
13. to | transaction( PutinMoney (amount) ) //to IKEA amount 
14. } 

15. sender | "成 功 " 

16. 

17. \ | 


创建 的 Transfer 447K A Actor， 提 供 了 一 个 通用 的 转账 的 方法 。 当 账户 里 面 有 足够 的 钱 
时 ， 可 以 得 到 下 面 的 结 


1. transfer | TransferMoney( amount=50,from = accountl ,to = account2 ) 


2. ”expectMsg(“ 成 功 ”) 


当 账 户 中 没有 足够 的 余额 时 ， 得 到 如 下 结 


1. transfer ! TransferMoney( amount=50,from = account! ,to = account2 ) 


2. expectMsg(" 处 理 失败 " ) 


从 上 面 的 示例 中 可 以 看 到 ， 需 要 在 不 同 地 方 的 代码 中 处理 协作 事务 , 但 是 大 多 数 时 候 ， 
这 些 处 理 的 结构 都 是 相似 的 ， 因 此 可 以 使 用 一 个 设计 模式 来 避免 代码 的 重复 。Akka 中 的 
Transactor 就 可 解决 这 个 问题 ， 提 供 了 一 个 统一 的 方式 来 处 理 协作 事务 。 接 下 来 就 看 看 Akka 
中 的 Transactor。 


11. 3. 6 创建 Transactor 


Transactor 是 一 种 特别 的 Actor， 它 包含 了 协作 事务 。Transactor 中 有 很 多 的 方法 可 以 使 
用 ， 可 以 重 写 必 要 的 方法 ， 而 不 需要 关心 Coordinated 类 ， 这 样 就 可 以 将 精力 放 到 业务 逻辑 
处 理 上 来 ， 而 不 需要 花费 额外 的 精力 去 创建 和 维护 Coordinated 类 了 。 

下 面 使 用 Transactor 完成 11. 3. 5 小 节 中 相同 的 转账 功能 。 首 先 创 建 一 个 MoneyTransactor 
继承 自 Transactor， 在 MoneyTransactor 中 定义 一 个 使 用 Ref AE STM 变量 ， 该 变量 是 一 个 共 
享 变量 ， 表 示 账 户 余额 。 

在 atomically 代码 块 中 ， 处 理 存 钱 取 钱 逻辑 ， 代 码 如 下 所 示 。 


import akka. transactor. Transactor 
class MoneyTransactor( ) extends Transactor| // 27K Transactor 
val balance = Ref (0) //STM 引用 
def atomically = implicit txt 之 | //atomically 代码 块 


case GetoutMoney( amount) => | 
valcurrentBalance = balance( ) // 得 到 当前 账户 余额 
if(currentBalance < amount) // 判 断 当 前 账户 


SO 
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8. throw new Error(" 当前 账户 余额 小 于 取款 金额 ,取款 失败 ,余额 :" + currentBalance ) 
9. balance( ) = currentBalance — amount /如果 余额 充足 ,更 新 当前 账户 
10. 

11. casePutinMoney( amount) => | > 
12. balance( ) = balance( ) + amount // 账 户 增加 amount 

13. | 

14. | 

15. override def normally = | //normally 代码 块 

16. caseGetBalance => sender | balance. single. get 

17. } 

18. override defpreRestart( reason; Throwable, message: Option| Any] ) | 

19. self ! Coordinated( 

20. PutinMoney( balance. single. get) ) (Timeout(5 seconds) ) // 存 钱 

21. super. preRestart(reason, message ) 

22: } 

23. } 


使 用 Transactor， 需 要 继承 Akka 中 的 Transactor， 不 需要 实现 receive 方法 ， 但 是 要 实现 
一 个 叫 atomically 的 方法 ， 在 这 个 方法 中 要 实现 取款 和 存款 逻辑 。atomically 中 的 方法 都 是 在 
协作 事务 中 执行 的 ， 但 是 所 有 协作 的 代码 都 被 隐藏 了 。 前 面 实现 的 GetBalance 不 是 事务 的 一 
部 分 ， 因 此 可 以 把 这 部 分 代码 放 和 人 nomally 方法 中 。 在 nomally 方法 中 的 代码 不 会 传递 给 
atomically 方法 ， 因 此 在 这 个 方法 中 ， 可 以 实现 普通 Actor 的 行为 ， 当 然 在 nomally 方法 中 也 


可 以 使 用 普通 的 STM 原子 块 实现 本 地 事务 。 


Transactor 继承 自 Actor， 有 preRestart 方法 ， 因 此 可 以 习 


val accountl = system. actorOf( Props[ MoneyTransactor | ) 
val account2 = system. actorOf( Props[ MoneyTransactor | ) 
val transaction = Coordinated ( ) 

transaction atomic | implicit t 

account! | transaction( GetoutMoney (amount =50) ) 
account2 | transaction( PutinMoney (amount = 50) ) 


| 


Se ee ha 


EE 用 这 个 方法 。 现 在 ,可 以 在 事 
务 中 像 使 用 协作 Actor 那样 使 用 Transactor 了 。 如 下 代码 ， 首 先 初 始 化 两 个 账户 accountl 、 
account2， 从 accountl 账户 取出 50 FA account2 中 ， 完 成 转账 功能 。 


/A 内 


Ai 


/A 由 


A2 


/A 由 


户 1 取 出 50 


//M 


J 2 FEA 50 


当 Transactor 收 到 协作 事务 之 外 的 消息 ， 它 会 产生 一 个 新 的 事务 并 执行 消息 。 例 如 ， 当 
向 一 个 账户 存 和 人 一些 钱 ， 这 个 操作 不 需要 在 协作 事务 中 处 理 。 因 此 可 以 使 用 如 下 的 操作 。 


1. account! ! Coordinated( PutinMoney( amount =100)) // 存 入 100 
2. account! ! PutinMoney( amount = 100) // 存 入 100 


这 两 行 代 码 和 上 面 atomic 块 中 的 代码 都 是 等 效 的 。 接 下 来 ， 将 实现 Tranfer Actor 并 让 它 


语言 基础 与 开发 实战 


作为 一 个 Transactor。 在 Transfer Actor 需要 将 两 个 账户 包含 到 协作 事务 中 。 为 了 实现 这 个 ， 
需要 实现 coordinate 方法 。 下 面 是 coordinate 方法 代码 。 


1 override def coordinate = | // coordinate 方法 

2 caseTransferMoney( amount, from, to) 之 

3.  sendTo( from -> GetoutMoney( amount) ,to -> PutinMoney( amount) ) 
4 


| 


在 上 面 代码 中 ， 需 要 将 消息 发 送 到 两 个 Actor， 发 送 “ 取 款 ” 消 息 到 “from” Actor, K 
送 “ 存 款 ” 消 息 到 “to”Actor。 要 这 样 ， 需 要 包含 两 个 Actor 到 Transactor 中 。 当 需要 将 收 
到 的 消息 发 送 其 他 Actor 时 ， 可 以 使 用 include 方法 ， 如 下 所 示 。 


1. override def coordinate = | 
2. case msg: Message => include (actorl , actor2, actor3)//include 方法 将 收 到 的 消息 发 送 给 
actorl , actor2 ,actor3 


< 


上 面 代 码 将 收 到 的 消息 发 送 给 其 他 3 个 Actor。 在 atomically 方法 执行 前 ， 会 先 执 行 
before 方法 ， 执 行 之 后 会 执行 after 方法 。 在 这 里 ， 当 事务 执行 成 功 时 ， 使 用 after 方法 发 送 
“成 功 ” 消 息 。after 代码 如 下 所 示 。 


1. override def after = } 
2.  caseTransferMoney( amount, from, to) => sender ! "成 功 " 
3. } 


至 此 ，Transactor 所 有 的 讲解 基本 上 结束 。 使 用 Transactor 可 以 隐藏 使 用 协作 事务 ， 并 且 
可 以 减少 代码 量 。 在 Transactor 中 可 以 增加 Actor 到 事务 中 ， 也 可 以 实现 普通 的 行为 ， 通 过 
重 写 before 和 after 方法 或 者 使 用 normally 方法 ， 可 以 完全 跳 过 事务 。 
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本 章 主要 讲解 了 Akka 中 的 核心 组 件 ， 在 11. 1 一 节 讲 解 了 Akka 中 的 Dispatchers 和 Routers。 
该 节 详 细 讲解 了 为 Actor 指定 派发 器 、 派 发 器 的 类 型 、 邮 箱 、Routers 、 路 由 的 使 用 等 内 容 。 

在 11.2 一 节 讲 解 了 Akka 中 的 监管 机 制 及 策略 Supervision 和 Monitoring。11. 3 一 节 通 过 
银行 转账 讲解 了 Akka 中 事务 的 管理 ， 可 以 在 Agents 中 实现 事务 ， 也 可 以 在 Actor 中 实现 事 
务 。Akka 提供 了 Transactor， 用 于 简化 事务 代码 的 编写 。 

通过 本 章 的 学 习 ， 读 者 朋友 可 以 掌握 Akka 核心 组 件 及 Akka 中 事务 的 管理 实现 机 制 。 
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127% Akka 程序 设计 实践 


在 本 章 中 ， 将 会 详细 讲解 Akka 的 配置 、 日 志 及 部 署 ， 并 讲解 若干 Akka 程序 设计 实例 ， 
还 会 讲解 Akka 分 布 式 环境 的 搭建 ， 从 而 帮助 读者 掌握 Akka 的 使 用 。 

首先 ， 在 12. 1 一 节 ， 详 细 介 绍 Akka 的 配置 文件 ， 体 会 使 用 配置 文件 给 程序 编写 带 来 的 
灵活 性 和 扩展 性 。 

在 12. 2 一 节 中 ， 使 用 Akka Actor 实现 一 个 单词 计数 程序 ， 通 过 实现 该 程序 ， 使 读者 朋 
友 们 进一步 掌握 使 用 Akka 编写 非 阻塞 的 、 异 步 的 、 并 发 程序 。 

在 12. 3 一 节 中 ， 通 过 搭建 Akka 分 布 式 环境 ， 让 读者 朋友 们 学 会 使 用 Akka 搭建 分 布 式 
环境 ， 编 写 出 自己 的 第 一 个 迷你 版 本 的 分 布 式 系统 。 

在 12.4 和 12.5 一 节 中 ， 分 别 介绍 Akka 框架 在 Spark 中 的 运用 和 使 用 Akka 提供 的 微 内 
核 进行 程序 的 部 署 。 


bp Akka 的 配置 、 日 志 及 部 署 


在 Akka 框架 中 ， 配 置 文件 的 读 取 采 用 Typesafe 配置 库 来 完成 。Typesafe 使 用 非常 简单 ， 
并 且 支 持 不 同 格式 的 配置 文件 ， 例 如 properties, . json, . conf 等 格式 的 配置 文件 。 使 用 配置 文 
件 的 好 处 是 可 以 很 方便 地 在 代码 外 面 修改 代码 中 引用 的 变量 ， 这 大 大 提高 了 程序 部 署 的 灵 
活性 。 

当然 每 一 个 应 用 都 会 有 记录 日 志 的 功能 ， 通 过 记录 日 志保 存 一 些 必 要 的 运行 信息 ， 以 便 
于 对 问题 的 跟踪 和 排查 ， 使 问题 的 追踪 具有 回溯 性 。 在 Akka 中 使 用 日 志 也 是 非常 容易 的 ， 
Akka 实现 了 一 个 Adapter， 用 来 适 配 几 乎 所 有 的 日 志 框 架 ， 因 此 在 Akka 中 使 用 日 志 ， 可 以 
自由 地 选择 熟悉 的 日 志 框架 。 

本 节 还 将 简要 探讨 Akka 的 几 种 部 署 方式 及 应 用 场景 。 


Akka 中 配置 文件 的 读 写 > 


Akka 中 使 用 Typesafe 配置 库 读 写 配置 文件 ，Typesafe 库 支 持 多 种 格式 的 配置 文件 ， 目 前 
支持 properties 、json 、conf 三 种 格式 的 配置 文件 。 
e application. properties: 该 类 型 的 文件 配置 格式 和 Java 中 properties 配置 文件 格式 一 样 。 
用 于 配置 键 值 对 形式 的 变量 和 值 ， 格 式 如 key = value, 
e application. json; 该 类 型 的 配置 文件 书写 格式 遵循 JSON 格式 规范 。 
e application. conf: 该 文件 中 书写 HOCON 格式 的 配置 ，HOCON 格式 类 似 于 Json， 但 比 
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Json 更 易 读 。 
Typesafe 库 是 一 个 非常 实用 的 工具 库 ， 它 不 依赖 其 他 任何 的 库 。 要 在 项 目 中 使 用 Type- 
safe 库 来 读 取 配 置 文件 ， 只 需要 在 项 目 中 引入 该 库 即 可 。 使 用 Intellij IDEA 开发 工具 ， 新 建 
SBT 项 目 ， 并 在 build. sbt 文件 中 配置 好 Typesafe 依赖 ，SBT (英文 全 称 叫 Simple Build Tool, 
是 一 款 Intelli] IDEA 集成 好 的 工具 ， 类 似 于 Maven) 工具 将 会 自动 到 对 应 的 仓库 中 下 载 
Typesafe 库 。 例 12-1 是 SBT 项 目 中 build. sbt 配置 文件 内 容 。 
【 例 12-1】 在 SBT 项目 中 的 build. sbt 文件 中 引入 Typesafe 库 配置 示例 。 


resolvers +=" Typesafe Repository" at "http://repo. typesafe. com/typesafe/releases/" 
libraryDependencies ++= | 


1 
2 
3 Seq( 

4. "com. typesafe" % "config" % "1.3.0" 
5 

6 


) 
| 


在 build. sbt 中 配置 好 库 依赖 之 后 保存 ，SBT 工具 将 自动 下 载 Typesafe 的 依赖 Jar 包 到 工 
程 中 。 引 入 Typesafe 库 后 ， 便 可 使 用 Typesafe 库 提供 的 便捷 的 API 来 读 取 配 置 文件 了 。 
Typesafe 配置 库 会 默认 加 载 工 程 根 目录 中 的 application. properties, application. conf, applica- 
tion. json 配置 文件 。 

在 下 面 的 案例 中 ， 使 用 结构 与 Json 类 似 的 HOCON 格式 的 配置 文件 ， 体 会 Typesafe 库 的 
使 用 ， 例 12-2 所 示 为 application. conf 的 配置 文件 ， 在 该 配置 文件 中 配置 操作 数据 库 的 一 些 
属性 。database 表示 数据 库 的 配置 ，dbname 表示 数据 库 名 称 ，dbversion 表示 数据 库 的 版 本 
号 。database 中 骨 套 定义 一 个 connect 对 象 ， 该 对 象 中 定义 了 连接 数据 库 的 三 个 属性 和 值 ， 
分 别 是 url, username, password, ， 对 应 数据 库 连 接地 址 、 数 据 库 用 户 名 称 、 登 录 数 据 库 的 
密码 。 

【 例 12-2】 application. conf 配置 文件 应 用 示例 。 


1. database f 

2 dbname = oracle 

3 dbversion =11. 0 

4 connect | 

5. url = " jdbc ; oracle; thin; @ 192. 168. 1. 115 :1521 :orcl" 
6 username = " root" 

7 password = " root" 

8 | 

oS 


application. conf 配置 文件 的 书写 跟 . json 很 相似 ， 并 且 比 . json 更 易 读 ， 表达 更 清晰 ， 特 
别 适合 配置 属性 的 分 组 描述 。 上 述 配置 文件 中 的 database 表示 一 个 配置 对 象 ， 大 插 号 里 面 是 
database 的 属性 ， 并 且 在 大 括号 里 面 文 持 藤 套 的 定义 ， 如 application. conf 中 骸 套 定义 了 con- 


nect, 


为 了 得 到 application. conf 中 的 配置 ， 需 要 用 Typesafe 库 中 的 ConfigFactory。 使 用 Config- 
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Factory 的 load 方法 将 会 默认 加 载 工程 根 目录 下 的 application. conf 配置 文件 。 例 12-3 是 Con- 
figFactory 的 使 用 示例 。 
【 例 12-3】 ConfigFactory 的 使 用 。 


val config = ConfigFactory. load( ) 


ConfigFactory 将 会 找到 默认 的 配置 文件 ， 这 些 默认 的 配置 文件 可 以 有 多 种 格式 。 可 以 是 
上 文 提 到 的 application. | properties ‚conf json} 、reference. conf 中 的 一 个 或 多 个 。 这 里 只 添加 
application. conf 配置 文件 。ConfigFactory 将 会 找到 并 加 载 application. conf 配置 文件 。Config- 
Factory 的 load 方法 将 会 返回 一 个 Config 对 象 ， 通 过 该 对 象 提 供 的 方法 ， 就 能 取出 配置 文件 
中 的 内 容 。 

要 得 到 配置 文件 中 的 配置 ，Config 提供 了 多 个 方法 ， 例 如 ， 要 得 到 dbname 可 以 使 用 con- 
fig. getString(“dbname”) ， 使 用 config. getString( “dbversion” ) 可 以 得 到 数据 库 的 版 本 号 ， 但 是 怎 
样 得 到 嵌 套 的 内 容 呢 ? 可 以 使 用 “. ”来 分 隔 路 径 ， 例 如 要 得 到 ul， 可 以 使 用 config, getString 
( “database. connect. url”) ， 也 可 以 通过 val subConfig = config. getConfig(“ database. connect” ) 得 
到 subConfig， 然 后 通过 subConfig. getString(“url”) 方 法 得 到 想 要 的 内 容 。 使 用 这 种 方式 时 不 必 
写 属性 的 全 路 径 ， 只 需要 写 出 subConfig 子 树 下 面 的 路 径 即 可 。 例 12-4 是 ConfigFactory 使 用 的 
一 些 方法 示例 。 

【 例 12-4】 读 取 配 置 文件 并 打印 控制 台 。 


1. import com. typesafe. config. ConfigFactory 

2. object AkkaConfig | 

3. def main( args: Array[ String] ) | 

4. val config = ConfigFactory. load ( ) /装载 默认 的 配置 文件 

5. println( config. getString( " database. dbname" ) ) // 打 Eh database. dbname 

6. println( config. getString( " database. dbversion" ) ) © // 打 印 database. dbversion 
Ws println( config. getString(" database. connect. url" ) ) /打印 database. connect. url 
8. val subConf = config. getConfig(" database. connect" ) // 得 到 database. connect 子 配置 对 象 
9. println( subConf. getString(" url" ) ) // 通 过 子 配置 对 象 打印 url 
10. println( subConf. getString(" username" ) ) 

11. println( subConf. getString( " password" ) ) 

12 | 

B | 


在 配置 文件 中 ， 如 果 一 个 配置 属性 出 现 多 次 ,并且 该 属 配 置 要 发 生变 动 ， 那 就 不 得 不 冒 
着 风险 更 改 配置 文件 中 所 有 的 这 个 属性 。 有 没有 更 好 的 方法 解决 这 个 问题 呢 9 幸运 的 是 强大 
的 Typesafe 库 解 决 了 这 个 问题 。 通 过 在 配置 文件 中 定义 变量 ， 配 置 文件 中 其 他 地 方 需要 这 个 
配置 只 需要 通过 $ |name) 引用 该 变量 即 可 。 这 样 有 一 个 最 大 的 好 处 ， 就 是 如 果 配 置 中 多 处 
使 用 了 该 变量 ， 要 更 改变 量 的 值 ， 只 需要 更 改定 义 的 变量 的 值 即 可 。 application. conf 配置 文 
件 还 可 以 写成 例 12-5 所 示 的 代码 。 

【 例 12-5】 配置 文件 中 使 用 变量 。 
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1. serverip =192. 168. 1.115 /变量 
2. serverport = 1521 // 变 量 
3. database| 

4. dbname = oracle 

S$ dbversion =11.0 

6. connect | 

gE url = "jdbc:oracle:thin:@" $ {serverip}";" $ | serverport} " :orcl” // 通 过 $141 引用 变量 
8. username = ” root” 

9. password = ” root” 

10. | 

11. } 


在 例 12-5 中 ， 定 义 了 两 个 变量 serverip 和 serverport， 并 且 在 database 中 通过 $ | server- 
ip}, $ {serverport} 引用 了 两 个 变量 。 
Typesafe 的 强大 不 止 于 此 ， 在 配置 文件 中 可 以 通过 $ |? varia- 
ble | 的 方式 获得 操作 系统 中 配置 的 环境 变量 的 值 。 例 如 系统 中 配 
置 了 JAVA_HOME 环境 变量 ,可 以 通 MY_JAVA_HOME = $ 14? 
JAVA_HOME} 来 获取 配置 的 JAVA_HOME 环境 变量 ， 并 赋值 给 变 
量 MY_JAVA_HOME, 在 配置 文件 中 就 可 以 通过 $ | MY_JAVA_ 


HOME| 引用 环境 变量 了 。 
在 上 面 的 讲述 中 ，ConfigFactory 加 载 默认 的 application. { conf、 


properties json} ， 如 果 这 些 配置 文件 中 都 配置 了 同一 个 属性 ， 那 么 eae 
哪 一 个 文件 中 的 配置 会 实际 生效 呢 ? 这 里 有 一 个 属性 的 优先 级 ， 


如 图 12-1 所 示 。 

从 上 到 下 依次 是 系统 属性 application. conf, application. json 、 
application. properties, reference. conf。 越 往 下 优先 级 越 低 。 即 如 果 
System properties 、application. conf 和 reference. conf 中 都 配置 有 同 图 12-1 属性 优先 级 
一 个 属性 ， 那 么 按照 这 个 优先 级 规则 ， 实 际 生 效 的 是 System properties 中 的 属性 。 

如 果 要 加 载 其 他 名 称 的 配置 文件 该 怎么 办 呢 ? 这 里 可 以 使 用 ConfigFactory 的 重 载 方法 ， 通 
过 ConfigFactory. load(“configname”) 的 方式 来 加 载 configname. | conf, properties, json | 配置 文件 。 

至 此 ， 熟 悉 了 Typesafe 库 的 使 用 ， 那 么 Akka 中 是 如 何 应 用 Typesafe 库 来 加 载 配 置 文件 
的 呢 ? 怎样 覆盖 Akka 默认 的 配置 呢 ? 如 果 有 多 个 ActorSystem， 如 何 保证 每 一 个 ActorSystem 
实例 化 的 时 候 都 加 载 目 己 的 配置 文件 呢 ? 

在 Akka 中 ， 如 果 没 有 创建 配置 文件 ， 系 统 会 使 用 默认 的 配置 , 但 是 也 可 以 使 用 自己 的 
配置 ， 通 过 val config = ConfigFactory. load( “your config”) 装载 自己 的 配置 文件 ， 然 后 在 实例 
化 ActorSystem 的 时 候 ， 将 config 对 象 传人 ActorSystem 的 构造 图 数 即 可 ， 如 : val sysa = 
ActorSystem ( “ myactorsystem” , config) o ActorSystem 中 传人 了 自己 的 配置 之 后 ， 可 以 通过 
ActorSystem. setting. config 的 方法 得 到 相应 的 配置 。 例 如 ， 要 得 到 传人 的 dhname， 可 以 通过 
例 12-6 得 到 。 

【 例 12-6】 得 到 ActorSystem 中 的 配置 参数 示例 。 
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val actorSystem = ActorSystem( “ myactorsystem” ) 
val config = actorSystem. settings. config // 得 到 ActorSystem 设置 中 的 配置 对 象 
val dbname = config. getString( “database. dbname”) ”// 取 出 配置 属性 
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任何 一 个 可 靠 的 系统 中 都 会 有 日 志 的 配置 ， 日 志文 件 可 以 记录 程序 运行 的 各 种 信息 。 通 过 
日 志 可 以 很 决 地 定位 和 解决 问题 。Akka 中 可 以 使 用 不 同 的 日 志 框 架 BES 日 志 的 记录 ， 因为 
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t 实现 了 一 个 日 志 适 配器 ， 能 够 支持 几乎 所 有 的 日 志 框 架 并 且 达 到 最 小 的 库 依赖 。 


在 Akka 中 使 用 日 志 框 架 有 两 a 心 : 第 一 是 如 何 调整 日 志 的 级 别 ， 第 二 是 如 何在 一 个 
Akka 程序 中 使 用 自 DRÆN 日 志 框 架 。 下 面 将 详细 讲解 Akka 中 日 志 的 配置 及 使 用 。 


在 Akka 


中 ， 日 志 适 配器 使 用 ste 发 送 日 志 消 息 到 eventHandler, enventHandler 


收 到 日 志 消 息 ， 并 使 用 选用 的 日 志 框 架 去 记录 日 志 。 由 于 eventStream 是 一 个 消息 的 订阅 系 
统 ， 因 此 Akka 所 有 actor 的 日 志 都 可 以 得 到 记录 并 且 只 有 一 个 actor 依赖 于 日 志 框 架 的 实现 。 
其 中 的 eventHandler 是 可 以 配置 的 。 记 录 日 志 就 意味 着 有 VO, m IO 往往 是 很 慢 的 操作 ， 
特别 是 在 一 个 高 并 发 的 系统 中 ， 高 并 发 下 情况 更 糟 ， 因 为 必须 要 等 待 一 个 线程 写 完 日 志 之 后 
才能 追加 日 志 。 使 用 eventHandler 的 一 个 好 处 就 是 ， 在 高 并 发 状态 下 ， 日志 的 写 人 不 需要 等 
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路 认 的 日 志 框 架 是 SLF4J 日 志 框 架 ， 在 Akka 依赖 中 可 以 看 到 akka - slf4j. jar 包 。 


为 了 使 用 SLF4J 日 志 记 录 框 架 ， 需 要 在 application. conf 中 添加 如 下 所 示 的 配置 语句 。 


1. Akka 


1. 
2 
3h 


使 用 slf4j 的 ent 


akka | 
event — handlers = | " akka. event. slf4j. Slf4jEventHandler" | 
| 


配置 好 了 日 志 的 eventHandler， 怎 样 去 使 用 呢 ? 有 两 种 方法 : 第 一 种 是 直接 在 程序 中 使 


用 ， 如 定义 一 个 


val logger = Logger( 3 另 一 种 方法 是 使 用 with 关键 字 混 入 ActorLogging , 之 


后 即 可 直接 使 用 logger | info debug .warn| 方 法 记录 日 志 了 。 在 打印 日 志 的 时 候 可 以 使 用 占 位 
符 ， 占 位 符 是 字符 串 “| 1”, 方法 如 下 所 示 。 
2. 在 日 志 中 使 用 “{}” 占 位 符 


log. debug( " two parameters; ||,|}","one 


a two" ) 


调整 Akka 中 日 志 的 显示 级 别 ， 可 以 在 applicaton. conf 中 添加 如 下 所 示 的 配置 语句 ， 修 
改 记录 日 志 的 级 别 。 
3. 修改 日 志 级 别 


1 
2 
3, 
4 


akka | 
# Options; ERROR, WARNING , INFO , DEBUG 
loglevel = "DEBUG" 
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Akka 部 署 及 应 用 场景 È 


Akka 适合 用 于 高 吞吐 率 、 低 延迟 的 系统 中 。 目 前 已 经 被 众多 行业 的 众多 大 企业 成 功 使 
用 ， 从 投资 到 银行 业务 ， 从 零售 到 社会 媒体 、 仿 真 游戏 、 汽 车 和 交通 系统 、 数 据 分 析 等 。 

Akka 的 使 用 及 部 署 方式 大 致 有 3 Ph: 

1) 直接 使 用 Akka 框架 来 实现 并 发 编程 ， 在 12. 2 一 节 中 使 用 Akka 实现 了 一 个 并 发 的 
Akka 单词 计数 程序 。 当 然 也 可 以 使 用 Akka 的 分 布 式 模块 构建 分 布 式 的 并 发 系统 ,在 12.3 
一 节 中 会 讲 到 分 布 式 Akka 环境 的 搭建 。 

2) Akka 作为 一 个 分 布 式 的 消息 子 系统 在 其 他 系统 中 使 用 ， 例 如 Akka 在 Spark 系统 中 
得 到 了 广泛 的 应 用 。 

3) Akka 框架 运用 到 Web 项 目 中 ， 可 以 在 Web 项 目 中 的 application 中 启动 Akka 的 Ac- 


torSystem。 


(OY) 使 用 Akka 框架 实现 单词 统计 


本 节 将 介绍 的 是 使 用 Akka 框架 实现 单词 统计 (WordCount) 的 实例 。Akka 框架 中 使 用 
的 Actor 跟 Scala 中 的 Actor 异曲同工 ， 并 且 Akka 也 是 使 用 Scala 语言 编写 的 。 因 此 本 实例 直 
接 以 Akka 中 的 Actor 来 编写 WordCount 代码 。 使 用 Akka 首先 要 引入 Akka 的 依赖 包 ，Akka 
依赖 包 可 以 到 Akka 官网 或 者 到 mvnrepository. com/tags/maven 上 搜索 ， 下 载 对 应 版 本 的 JAR 
包 并 导入 项 目 中 。 

本 例 使 用 MapActor 来 对 输入 的 语句 进行 切 分 计数 ， 使 用 ReduceActor 对 MapActor 切 分 后 的 单 
词 个 数 进 行 化 简 统 计 ， 最 后 交 由 AggregateActor 进行 全 局 的 统计 。 首 先 定义 消息 实体 类 。 

1. 定义 消息 实体 类 


import java. util. | ArrayList , HashMap } 
class WordInfo( val word ; String, val count; Integer ) 


classMapInfo( val dataList: ArrayList WordInfo | ) 


1 

之 

3. case classGetResult( ) 

4 

5. classReducelnfo( val reduceMap: HashMap| String, Integer | ) 


定义 传递 的 消息 实体 类 ， 用 于 传递 统计 消息 。WordInfo 类 中 有 两 个 属性 : Word 和 该 
Word 出 现 的 次 数 count。GetResult 样本 类 告诉 AggregateActor 返回 统计 结果 ，MapInfo 用 于 记 
录 MapActor 中 的 数据 ，ReducelInfo 用 于 记录 ReduceActor 中 的 记录 。 

程序 中 使 用 MapActor 处 理 输入 文本 信息 ， 并 将 文本 按照 空格 切 分 ， 形 成 一 个 如 MapInfo 
的 对 象 ， 并 将 MapInfo 传人 Reducelnfo 进行 化 简 统 计 。 

2. 使 用 MapActor 处 理 输入 文本 信息 


1. classMapActor( val reduceActor; ActorRef) extends Actor| 
Ds val STOP_WORDS_LIST = List( " stop" ," quit" ) 
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override def receive; Receive = | 
case message :String => 
reduceActor! calculation ( message ) 
case _ => > 
} 
defcalculation( line ; String) ; MapInfo = | /将 收 到 消息 字符 串 按 照 分 隔 符 分 成 单 i 
val dataList = newArrayList[ WordInfo | ( ) 


Ta 
ïí 


val parser :StringTokenizer = new StringTokenizer( line) 
valdefaultCount ; Integer = 1 
while (parser. hasMoreTokens ) | 
val word ; String = parser. nextToken( ). toLowerCase( ) 
if(! STOP_WORDS_LIST. contains( word) ) | 
dataList. add( newWordInfo( word , defaultCount ) ) 


} 
return newMapInfo( dataList ) 
} 
} 


MapActor 的 receive 方法 中 匹配 收 到 的 消息 ， 如 果 消 息 是 String 类 型 ， 则 执行 calculation 
(message) 方 法 ， 并 将 该 方法 的 返回 值 发 送 给 reduceActor。 在 calculation 方法 中 ， 首 先 构 造 
一 个 dataList 数组 ， 用 于 存放 由 message 消息 解析 出 的 WordInfo 对 象 。WordInfo 对 象 用 于 记 
录 解 析出 的 单词 及 单词 对 应 的 个 数 ， 此 处 每 一 个 单词 对 应 一 个 WordInfo 对 象 ， 因 此 单词 个 


数 为 1， 用 defaultCount 常量 表示 。 方 法 中 使 用 StringTokenizer 工具 解析 每 一 个 单词 。 对 于 解 


析出 来 的 每 一 个 单词 ， 只 要 不 是 STOP_WORDS_LIST 列表 中 的 单词 ， 都 放 人 到 dataList 数组 
中 。 解 析 完 成 之 后 ， 使 用 解析 出 来 的 dataList 构建 一 个 MapInfo 对 象 并 返回 。 该 Maplnfo 对 象 
将 通过 “1” 方 法 ， 发 送 给 reduceActor ，reduceActor 将 根据 单词 进行 化 简 ， 求 出 相同 单词 的 
个 数 。 对 MapInfo 中 的 元 组 数据 化 简 的 ReduceActor 代码 如 下 所 示 。 

3. ReduceActor 进行 化 简 


No RE ee a pe E; 


10. 
11. 
12. 


import java. util 
import akka. actor. | ActorRef, Actor} 
import collection. JavaConversions. _ 
class ReduceActor( val aggregateActor; ActorRef) extends Actor | 
override def receive; Receive = } 
case message: MapInfo => 
ageregateActor ! reduce( message. dataList ) 
case _ => 
| 
def reduce( dataList: util. ArrayList[ WordInfo] ) : ReduceInfo = | 
// At fad PRL, XT dataList 进行 化 简 
val reduceMap = new util. HashMap[ String, Integer] () // 键 是 单词 , 值 是 单词 出 现 的 次 数 


语言 基础 与 开发 实战 


13. for (we; WordInfo < dataList) | 

14. /遍历 数组 

15), val word; String = we. word 

16. if (reduceMap. containsKey( word) ) | 

17. reduceMap. put (word, reduceMap. get( word) +1) //reduceMap 中 存在 该 单词 , 则 
单词 个 数 加 1 

18. | else | 

19. reduceMap. put ( word, 1) //reduceMap 中 不 存在 该 单词 , 则 将 该 单词 放 入 re- 

duceMap 中 ,并 计数 为 1 

20. | 

21. } 

22 return new Reducelnfo(reduceMap) “信使 用 reduceMap 对 象 构建 Reducelnfo 

23. } 

H a 


ReduceActor 的 receive 方法 匹配 到 case message: Maplnfo 消息 之 后 ， 将 执行 reduce(mes- 
sage. dataList) 方 法 ， 并 将 reduce 方法 的 返回 结果 发 送 给 aggregateActor 进行 最 后 的 汇总 处 理 。 

reduce 方法 中 ， 首 先 定义 一 个 HashMap ， 键 是 单词 ， 值 是 单词 出 现 的 次 数 。 在 for 循环 
H, Xf dataList 中 的 单词 按 单词 统计 计数 并 放 入 到 reduceMap 中 ， 统 计 计 数 完成 之 后 ， 使 用 
reduceMap 构建 一 个 ReducelInfo 对 象 并 返回 。 

reduce 方法 返回 的 ReducelInfo 对 象 将 会 被 发 送 给 AggregateActor 进行 最 后 的 汇总 ， 代 码 
如 下 所 示 。 

4. AggregateActor 汇总 结果 


1. import java. util 

2. import akka. actor. Actor 

3. import collection. JavaConversions. _ 

4. class AggregateActor extends Actor | 

5 var finalReduceMap = new util. HashMap| String, Integer | 

6. override def receive; Receive = } 

Ta case message: ReduceInfo => 

8. doAggregate( message. reduceMap) /匹配 到 ReduceInfo 消息 ,调用 doAggregate 进行 统 
计 汇 总 

9. case message; GetResult => ”// 匹 配 到 CetResult ,直接 打印 出 finalReduceMap 中 的 信息 

10. var i=0 

11. for( key < finalReduceMap. keySet( ) ) | 

12. i=it+l 

13. if(i%5 = =0) // 为 了 打印 出 个 好 看 ,每 一 行 打 印 5 个 

14. println( ) 

15. print( key +" :" + finalReduceMap. get( key) +" \t" ) 

16. | 
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18. def doAggregate(reduceList; util. HashMap| String, Integer | ): Unit = | 

19. // 肾 合 函 数 ,返回 统计 结果 

20. var count: Integer =0 

21. for (key <-reduceList. keySet) | 

22. // Wi reduceList 

23% if (finalReduceMap. containsKey(key) ) | 

24. // 如 果 finalReduceMap 中 包含 该 单词 , 则 

25: count = reduceList. get( key) // dK reduceList 中 取出 该 单词 对 应 的 频数 

26. count += finalReduceMap. get(key) // 加 上 finalReduceMap 中 该 单词 对 应 的 频数 

Bil finalReduceMap. put( key, count) /最 后 更 新 该 单词 出 现 的 频数 

28. | else | 

29. finalReduceMap. put( key, reduceList. get( key) ) // 不 包含 该 单词 , 则 直接 将 该 单词 
及 单词 对 应 的 频数 放 入 finalReduceMap 中 

30. } 

31. } 

32. } 

sB 


在 AggregateActor 中 定义 了 一 个 finalReduceMap ， 用 于 存放 最 终 的 单词 统计 结果 ， 键 是 
单词 ， 值 是 单词 的 出 现 次 数 。 

AgeregateActor 的 receive 方法 中 ， 若 匹配 到 case message: Reducelnfo 消息 ， 将 调用 doAg- 
gregate( message. reduceMap) 方 法 ， 将 reduce 阶段 的 结果 汇 入 最 终 的 结果 集 finalReduceMap F, 

doAggregate 方法 中 ,遍历 reduceMap， 对 于 reduceMap 中 的 每 一 个 单词 ， 若 finalRe- 
duceMap 中 存在 该 单词 ， 则 取出 reduceMap 中 该 单词 对 应 的 数目 和 finalReduceMap 中 该 单词 
对 应 的 数目 相 加 ， 用 相 加 的 结果 更 新 finalReduceMap 中 该 单词 对 应 的 数据 。 若 finalRe- 
duceMap 中 不 存在 该 单词 ， 则 直接 把 该 单词 和 单词 对 应 的 个 数 放 入 finalReduceMap 中 。 

每 一 次 doAggregate 方法 的 调用 ， 都 将 更 新 finalReduceMap 中 记录 的 单词 及 单词 个 数 。 
若 receive 方法 收 到 的 消息 为 case message: GetResult， 则 调用 printlh 方法 打印 出 finalRe- 
duceMap 中 的 单词 及 单词 对 应 的 个 数 。 

上 面 提 到 了 MapActor, ReduceActor, AggregateActor, Actor 是 如 何 协同 工作 的 
WE? 这 其 实 就 跟 一 个 公司 组 织 结构 差不多 ， 公 司 有 很 多 员工 ， 每 个 员工 做 自己 的 事情 ， 员 工 
与 员工 要 得 到 其 他 部 门 的 帮助 需要 一 个 部 门 肥 理 来 协调 ， 这 样 就 使 每 一 个 员工 专注 于 处 理 自 
己 的 事情 而 不 因 协 调 琐碎 杂事 分 心 。 该 程序 设计 中 ， 使 用 MasterActor 来 协调 管理 。 一 个 好 
的 部 门 经 理应 该 非常 的 知晓 自己 带领 员工 的 能 力 及 特长 ， 以 便于 合理 的 分 配 任务 和 调度 资 
源 。MasterActor 在 这 里 起 协调 、 调 度 功 能 ， 因 此 它 必 须 对 自己 的 手下 知 根 知 底 。 其 实 Ma- 
pActor、ReduceActor、AggregateActor 的 初始 化 ， 都 是 在 MasterActor 内 部 通过 context 对 象 初 
始 化 的 ， 代 码 如 下 所 示 。 

5. MasterActor 进行 初始 化 


1. import akka. actor. | Props, ActorRef, Actor} 


2. class MasterActor extends Actor | 


语言 基础 与 开发 实战 


3}, val aggregateActor: ActorRef = context. actorOf( Props[ AggregateActor |, name = "aggregate" ) 

4. // 使 用 context HY actorOf 方法 创建 AgeregateActor 

5. val reduceActor; ActorRef = context. actorOf( Props( new ReduceActor( aggregateActor) ) , name 
= "reduce" ) 


6 // 使 用 context 的 actorOf 方法 创建 ReduceActor ,并 将 创建 的 aggregateActor 通过 构造 函数 传人 
Te val mapActor; ActorRef = context. actorOf( Props( new MapActor(reduceActor) ) , name =" map" ) 

8. // 使 用 context 的 actorOf 方法 创建 MapActor ,并 将 reduceActor 通过 构造 函数 传人 
9 


override def receive: Receive = | 


10. casemessage: String > // 匹 配 到 输入 的 字符 串 消息 


11. mapActor ! message // 将 消息 发 送 给 map Actor 处 理 

12. case message; GetResult > /匹配 到 GetResult 消息 

13. ageregateActor ! message // 将 GetResult 消息 发 送 给 aggregateActor ,打印 出 单词 汇总 信息 
14. case _ => 

15. } 

16. } 


MasterActor 是 一 个 全 局 的 管理 者 ， 要 负责 初始 化 MapActor、ReduceActor、AggregateAc- 
tor。 因 为 MapActor 中 拆 分 出 来 的 单词 需要 发 送 给 ReduceActor 处 理 ， 因 此 在 创建 MapActor 
的 时 候 ， 要 将 ReduceActor 传人 ， 这 样 在 MapActor 中 就 可 以 通过 传人 的 ReduceActor 的 引用 
向 ReduceActor 发 送 消息 了 。 同 样 的 ReduceActor 中 统计 的 单词 信息 需要 发 送 给 AggregateAc- 
tor 进行 最 后 的 汇总 ， 因 此 在 创建 ReduceActor 时 ， 要 将 AggregateActor fA, FETE Reduce- 
Actor 中 就 能 向 AggregateActor 发 送 消息 了 。 

所 有 条 件 都 已 经 具备 ， 现 在 只 需要 在 main 函数 中 通过 ActorSystem 启动 MasterActor， 并 
向 MasterActor 发 送 消息 即 可 驱动 统计 程序 的 运行 。 如 下 所 示 。 

6. 在 客户 端 程序 中 启动 ActorSystem ， 创 建 MasterActor， 开 始 单词 统计 


1 object Boot | 

2 def main (args; Array[ String] ) | 

3 val _system = ActorSystem( " sbt_akka" )//ActorSystem 

4 val master = _system. actorOf( Props[ MasterActor ] ,name = " master" )// 构 建 MasterActor 
5. master ! "have an aim in your life ," // 发 送 消息 给 master 
6 master | "nor your energies will all be wasted" 

T master ! "just to do it !" 

8 Thread. sleep(500) // 线 程 睡眠 500 ms 
9. master ! GetResult // i] master 发 送 GetResult ,请 求 返回 结果 
10. Thread. sleep (500) 

11. _system. shutdown( ) // 关 闭 ActorSystem 
12. } 

ie 4 


在 上 面 的 Boot 程序 中 ， 创 建 了 一 个 名 为 sbt_akka 的 ActorSystem 对 象 ， 通 过 该 对 象 的 ac- 
torOf 方法 创建 MasterActor。 有 了 MasterActor 之 后 ， 就 可 以 向 其 发 送 消息 及 指令 进行 单词 的 
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统计 及 显示 了 。 程 序 中 发 送 了 三 条 语句 ， 调 用 Thread. sleep 方法 让 线程 睡眠 500 毫秒 ,日 的 
是 等 待 统 计 工 作 完成 。 然 后 向 master AIF GetResult 消息 ，master 接收 到 该 消息 后 将 打印 出 
单词 的 统计 信息 。 最 后 调用 ActorSystem 的 shutdown 方法 ， 关 闭 ActorSystem。 
运行 结果 如 图 12-2 所 示 。 > 


“C:\Program Files\Java\ jdk1. 7. 0_80\bi 
just:1 to:l it: 1:1 


have:1 energies:] your:2 in:l sad 


nor:1 life:1 wasted:1 aim:1 an:l 
will:1 do:1 all:1 be:1 


Process finished with exit code 0 


图 12-2 wordCount 运行 结果 


分 布 式 Akka 环境 搭建 


使 用 Akka 的 分 布 式 模块 ， 可 以 构建 出 不 同 物理 节点 的 多 机 协同 消息 处 理 系统 。 本 小 节 
通过 搭建 Akka 分 布 式 环境 ， 展 示 Akka 在 构建 分 布 式 系统 上 的 灵活 与 方便 。 

这 里 通过 构建 两 个 物理 节点 ， 展 示 Akka 分 布 式 环境 的 搭建 。 这 两 个 节点 分 别 是 Remo- 
teNode 和 LocalNode。LocalNode 节点 的 Actor 向 RemoteNode 节点 的 Actor 发 送 消息 ， 并 接收 
RemoteNode 节点 返回 的 结果 。 

环境 的 搭建 遵循 以 下 步 又 如 下 。 

1) 配置 Remote 节点 。 

2) 编写 RemoteNodeActor。 

3) 编写 RemoteActorApplication， 启 动 RemoteNodeActor。 

4) 配置 Local 节点 。 

5) 编写 LocalNodeActor。 

6) 编写 LocalNodeActorApplication ， 启 动 LocalNodeActor。 

以 下 分 步骤 详细 介绍 。 

1. 配置 Remote 节点 

要 使 用 Akka 搭建 分 布 式 系统 ， 首 先 要 引入 Akka 的 Remote 模块 。 首 先 新 建 SBT (Sim- 
ple Build Tool) 项 目 ， 在 项 目 中 的 build. sbt 配置 文件 中 引入 Akka 的 Remote 模块 。build. sbt 
配置 文件 内 容 如 下 所 示 。 


name : = "akka_remote" 
version ; ="1.0" 
scalaVersion ; ="2. 10. 4" 


resolvers +=" Typesafe Repository" at "http://repo. typesafe. com/typesafe/releases/" 


SD a a T 


libraryDependencies ++= Seq( 


语言 基础 与 开发 实战 


"com. typesafe. akka" % "akka -actor 2.10" % "2.1.4", 
"com. typesafe. akka" % "akka —remote_2.10" % "2.1.4", 
"com. typesafe. akka" % "akka —kernel_2. 10" % "2.1.4" 

) 


Akka Remote 模块 中 利用 Netty 服务 器 来 建立 远程 监听 ， 因 此 搭建 分 布 式 环 境 ， 需 要 指 
定 Netty 服务 器 的 Ip 和 监听 的 端口 。 为 了 完成 这 一 任务 ，Akka 通过 读 取 配 置 文件 的 方式 来 
获得 Netty 服务 器 的 Ip 和 端口 。 因 此 需要 在 application. conf 中 增加 如 下 的 配置 。 


0. 
Ws 
8. 
9. 


1. remoteNode | // 节 点 名 称 

2. akka | //akka 配置 

3 actor | 

4 provider =" akka. remote. RemoteActorRefProvider" 

S | 

0 remote | 

7 transport = " akka. remote. netty. NettyRemoteTransport" 

8 netty | 

9 hostname = "192. 168. 1. 12" // 指 定 Netty 服务 器 所 在 的 Ip 
10. port =2554 // 指 定 Netty 服务 器 监听 的 端口 
11. } 

12. } 

13. } 

14. } 


2. 编写 RemoteNodeActor 

在 配置 文件 中 指定 了 Netty 服务 器 hostname 和 port。 接 下 来 将 通过 实现 Actor Trait 书写 
RemoteNodeActor, RemoteNodeActor 只 做 一 件 事 情 ， 通 过 receive 方法 接收 信息 ， 然 后 向 发 送 
方 返回 message +“ I’ m remote Server” 消息 。RemoteNodeActor 实现 如 下 所 示 。 


class RemoteNodeActor extends Actor | 
def receive: Receive = | 
case message: String 之 


1 
2 
3 
4. sender. tell( message +" i m remote Server" , self) /使 用 sender AY tell 方法 ,返回 消息 
5 
6 


| 


在 该 类 中 ， 通 过 receive 方法 匹配 收 到 的 消息 ， 并 向 请 求 端 返 回 message + “i’ m remote 
Server” 的 消息 。 

3. 编写 RemoteActorApplication ， 启 动 RemoteNodeActor 

在 配置 好 RemoteNodeActor 之 后 ， 最 后 需要 编写 RemoteNodeApplication 启动 ActorSystem 
和 RemoteNodeActor, RemoteNodeActor 启动 之 后 ，Netty 服务 器 开始 监听 2554 端口 了 ， 等 待 
远程 的 请 求 并 建立 连接 。 实 现代 码 如 下 所 示 。 
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1. object RemoteActorApplication | 


2 def main( args; Array| String] ) : Unit = | 
3, val system = ActorSystem ( " remoteNode" , ConfigFactory. load ( ) . getConfig ( " remoteNo- 
de" ) ) 人 /使 用 ConfigFactory. load( ). getConfig( “remoteNode” ) 的 方式 初始 化 ActorSystem S 
4. val remoteActor = system. actorOf( Props [ RemoteNodeActor |, name = " remoteActor" )// 启 
动 RemoteNodeActor 
5. } 
G 4 


在 RemoteActorApplication 的 主 函 数 中 ， 通 过 指定 配置 初始 化 ActorSystem。 ConfigFacto- 
ry. load 方法 将 默认 加 载 工程 根 目 录 下 的 application. conf 配置 文件 ， 并 通过 getConfig 方法 读 
取出 配置 的 remoteNode 信息 。 以 上 的 Remote 端 就 构建 完毕 了 ， 接 下 来 以 同样 的 方法 构建 
LocalActor。 

4. 配置 Local 节点 

同样 新 建 一 个 SBT 项 目 ， 为 了 使 用 Akka 的 Remote 模块 ， 同 样 需要 在 build. sbt 配置 文 
件 中 引入 相关 的 依赖 Jar 包 ，SBT 将 自动 到 相应 的 仓库 中 下 载 ， 其 配置 同 Remote 节点 的 
build. sbt 配置 文件 。 项 目 中 Scala 目录 下 ， 有 LocalNodeActor 和 LocalNodeApplication 两 个 文 
件 ， 在 resources 目录 中 存放 的 application. conf 配置 文件 ，application. conf 配置 文件 中 ， 配 置 
localActor， 配 置 代码 如 下 所 示 。 


1. LocalNode | // 配 置 名 称 为 LocalNode 

2 akka | //akka 的 配置 项 

3 actor | 

4. provider =" akka. remote. RemoteActorRefProvider" 
5 | 

6 | 

Zo 


配置 完成 之 后 ， 接 下 来 编写 LocalNodeActor。 
5. 编写 LocalNodeActor 
接 下 来 通过 实现 Actor Trait 的 方式 编写 LocalNodeActor , 代码 如 下 所 示 。 


1. classLocalNodeActor extends Actor with ActorLogging | 
2 val remoteActor = context. actorFor( " akka://remoteNode@ 192. 168. 1. 12 :2554/user/remote- 
Actor" )// 得 到 remoteActor 的 引用 


3. implicit val timeout =Timeout(5000)// 设 置 隐 式 值 ,超时 时 间 为 5s 

4. def receive; Receive = | 

5. case message: String => 

6. val future = (remoteActor ? message). mapTo| String ]// 使 用 异步 方法 ”?” 向 remoteActor 
发 送信 息 ,该 方法 不 会 阻塞 ,立即 返回 代表 将 来 可 能 返回 值 的 Future 对 象 

ie val result = Await. result( future, timeout. duration ) 

8. log. info( " Message received from Server > ||", result +" sender;" +sender)// 打 印 出 结果 

9. } 
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在 上 面 代码 中 ， 使 用 context. actorFor( URL) 方 法 得 到 远程 Actor 的 引用 ， 跟 使 用 本 地 Ac- 
tor 一 样 使 用 remoteActor 的 “?” 方 法 发 送 message 并 通过 立即 返回 的 Future 对 象 等 待 返回 的 


结果 ， 打印 出 RemoteActor 响应 信息 。 编 写 好 LocalNodeActor 之 后 ， 需 要 启动 LocalNodeAc- 
or， 下 面 就 编写 LocalNodeActorApplication ， 启 动 LocalNodeActor。 

6. 编写 LocalNodeActorApplication， 启 动 LocalNodeActor 

最 后 编写 LocalNodeApplication 启动 NodeActor。 代 码 如 下 所 示 。 


1 object LocalNodeApplication | 

2 def main( args; Array[ String] ): Unit = | 

3 

4 val config = ConfigFactory. load( ). getConfig(" LocalNode" ) // 加 载 LocalNode 配置 
5. val system = ActorSystem( " LocalNodeApplication" , config) ”// 使 用 配置 构建 ActorSystem 
6 valclientActor = system. actorOf( Props[ LocalNodeActor | ) // 构 建 LocalNodeActor 
也 clientActor ! "Hello" // 发 送 消息 

8 Thread. sleep( 4000) 

9. system. shutdown( ) // 关 闭 ActorSystem 

10. } 

ii 7 


上 面 代 码 中 ， 通 过 ConfigFactory. load 方法 ， 加 载 工 程 根 目录 下 的 application. conf 配置 文 
fF, 通过 getConfig 方法 读 取 出 LocalNode 配置 。 使 用 application. conf 中 的 配置 初始 化 
ActorSystem ， 并 使 用 该 ActorSystem 的 actorOf 方法 创建 并 启动 LocalNodeActor。 

至 此 ， 简 单 的 分 布 式 Akka 环境 搭建 完毕 ! 运行 RemoteNodeApplication， 后 台 打 印 出 
RemoteServerStarted@ akka://remoteNode@ 192. 168. 1. 12:2554， 其 中 remoteNode 为 配置 中 远 
程 节点 的 名 称 ，192. 168. 1. 12 为 远程 卫 ，2554 远程 端口 。 结 果 如 下 所 示 。 


1. Connected to the target VM, address;' 127. 0. 0. 1:50373' , transport:'’ socket 
2. [INFO] [08/13/2015 12:17;45.611] [main] [ NettyRemoteTransport ( akka;//remoteNode@ 
192. 168. 1. 12:2554) ] RemoteServerStarted@ akka://remoteNode@ 192. 168. 1. 12 :2554 


运行 LocalNodeApplication, %8 ti] @ FJ EU Hi RemoteClientStarted 信息 ， 远 程 IP 是 
192. 168. 1. 12, 端口 是 2554。 癌 远程 Actor AIK Hello 消息 A, wef Actor 返回 “Hello I’m re- 
mote”， 在 控制 台中 打印 出 来 。 结 果 如 下 所 示 。 


1. Connected to the target VM, address;' 127. 0.0. 1:56227 , transport:' socket 

2. [INFO] [08/13/2015 11:51:38.919] [main] [ NettyRemoteTransport ( akka://LocalNodeAp- 
plication @ 192. 168. 1.12: 2552 ) | RemoteServerStarted @ akka://LocalNodeApplication @ 
192. 168. 1. 12 2552 

3. [INFO] [08/13/2015 11:51:39. 208 | [ LocalNodeApplication — akka. actor. default - dispatcher 
-3] [ NettyRemoteTransport ( akka://LocalNodeApplication @ 192. 168. 1. 12: 2552 ) | Remote- 
ClientStarted@ akka://remoteNode@ 192. 168. 1. 12 :2554 
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4. [INFO] [08/13/2015 11:51:39.238] [ LocalNodeApplication - akka. actor. default - dispatcher 
-3 ] [ akka://LocalNodeApplication/user/ $ a] Message received from Server -> Hello i m re- 
mote Server sender; Actor[ akka://LocalNodeApplication/deadLetters | 
De Disconnected from the target VM, address;' 127.0. 0. 1:56227 , transport:' socket > 


使 用 Akka 微 内 核 部 署 应 用 


Akka 微 内 核 是 一 个 内 置 的 微型 服务 器 ， 其 目的 是 提供 一 个 绑 定 的 机 制 ， 通 过 该 机 制 可 
以 发 布 一 个 单一 负载 的 应 用 程序 ， 而 不 需要 通过 运行 Java 服务 器 或 者 手动 创建 一 个 启动 脚 
本 。 在 Akka 的 下 载 包 里 面包 含 一 个 Akka 的 微 内 核 。 

要 想 使 用 Akka 的 微 内 核 启 动 一 个 应 用 程序 ， 首 先 需 要 创建 一 个 Bootable 类 ， 这 个 类 提 
供 了 启动 和 关闭 应 用 的 方法 。 

启动 应 用 程序 ， 首 先 需 要 将 应 用 的 JAR 包 放 入 Akka 安装 路 径 下 的 deploy 目录 下 。 如 果 
运行 应 用 程序 时 需要 依赖 其 他 的 JAR 包 ， 将 这 些 JAR CA lib 目录 中 ， 在 运行 时 将 自动 加 
载 这 些 依赖 包 。 为 了 启动 Akka 微 内 核 ， 需 要 进入 到 Akka 安装 目录 的 bin 目录 中 ， 通 过 运行 
Akka 命令 启动 微 内 核 。 需 要 将 要 启动 的 应 用 的 Boottable 类 传 给 Akka 命令 。 启 动 脚本 将 首先 
加 载 config 目录 中 的 配置 文件 ， 然 后 加 载 liby * 目录 中 的 依赖 包 到 类 路 径 中 。 脚 本 将 使 用 
akka. kernel. Main 运行 通过 参数 传人 的 Bootable 类 。 

在 UNIX/Linux 环境 中 ， 可 以 通过 如 下 命令 启动 Bootable: 


/bin/akka sample. kernel. hello. HelloKernel 


在 Windows 环境 中 ， 可 以 通过 如 下 命令 启动 Bootable: 


/bin/akka. bat sample. kernel. hello. HelloKernel 


例 12 -7 是 一 个 使 用 Bootable 启动 AkkaSystem 的 例子 。 通 过 启动 Bootable, 创建 
ActorSystem, ， 并 向 HelloActor 发 送 Start 消息 。HelloActor 接收 到 消息 之 后 ， 向 WorldActor 发 
送 “Hello” 消 息 。 

【 例 12-7】 Akka 微 内 核 启动 Bootable。 


package sample. kernel. hello 

importakka. actor. | Actor, ActorSystem , Props } 

importakka. kernel. Bootable 

case object Start 

classHelloActor extends Actor } 
valworldActor = context. actorOf(Props[ WorldActor]) ”// 在 构造 函数 中 创建 WorldActor 
def receive = } 


case Start => worldActor! "Hello" // 向 worldActor KiX Hello 消息 
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case message: String => 
println(“ 收 到 消息 :”+ message) 


| 
| 
classWorldActor extends Actor { 
def receive = } 
case message; String =>sender( )! (message. toUpperCase +" world!" )// 向 消息 发 送 者 返回 消息 
| 
| 


classHelloKernel extends Bootable | 


val system = ActorSystem(" hellokernel" ) // JA ActorSystem 
def startup = | // 系 统 启 动 自动 调用 startup 方法 
system. actorOf( Props[ HelloActor | ) ! Start // 创 建 HelloActor, 并 问 其 发 送 Start 消息 
| 
def shutdown = } 
system. shutdown( ) // 关 闭 系 统 时 自动 调 
| 
| 


如 例 12-7 中 一 样 ， 可 以 通过 Akka 微 内 核 启 动 任何 Java 应 用 和 服务 。 在 Bootable 类 中 可 以 启 
Z) Akka， 也 可 以 启动 其 他 的 应 用 ， 如 在 Web 应 用 中 可 以 启动 Servelet 拦截 用 户 请 求 ， 也 可 以 启动 
一 个 数据 库 服务 程序 ， 并 通过 该 服务 程序 对 外 提供 对 数据 库 的 增 、 删 、 改 、 查 操作 等 。 


ay 


iy Akka 框架 在 Spark 中 的 运用 


Spark 是 UC Berkeley AMP lab 所 开源 的 类 Hadoop MapReduce 的 通用 并 行 计算 框架 ， 
Spark 拥有 Hadoop MapReduce 所 具有 的 优点 ， 但 不 同 于 MapReduce We, Job 的 中 间 输 出 结 
果 可 以 保存 在 内 存 中 ， 从 而 不 再 需要 读 写 HDFS， 因 此 Spark 能 更 好 地 适用 于 数据 挖掘 与 机 
需 学 习 等 需要 迭代 的 算法 。 

Spark 在 很 多 模块 之 间 的 通信 选择 是 Akka，Spark 之 所 以 选择 Akka， 是 因为 Akka 有 以 
下 5 个 特性 : 

1) 易于 构建 并 行 和 分 布 式 应 用 (Simple Concurrency & Distribution); Akka 在 设计 时 采 
用 了 蜡 步 通信 和 分 布 式 架 构 ， 并 对 上 层 进行 抽象 ， 如 Actors, Futures, STM 等 。 

2) 可 靠 性 (Resilient by Design): 系统 具备 自 愈 能 力 ， 在 本 地 /远程 都 有 监护 。 

3) 高 性 能 (High Performance): 在 单机 中 每 秒 可 发 送 50 000 000 个 消息 。 内 存 占用 小 ， 
1 GB 内 存 中 可 保存 270 HA Actors, 

4) 弹性 ， 无 中 心 (Elastic 一 Decentralized); 自 适 应 的 负责 均衡 、 路 由 、 分 区 、 配 置 。 

5) 可 扩展 (Extensible): 可 以 使 用 Akka 扩展 包 进 行 扩展 。 

在 Spark 中 各 个 模块 之 间 通 过 Akka 来 相互 通信 ， 可 以 说 Spark 的 整个 通信 体系 都 是 构建 
在 Akka 之 上 的 ， 因 此 了 解 和 学 习 Akka 对 于 深入 学 习 Spark 架构 、 研 究 Spark 的 内 核 是 有 巨 
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大 帮助 的 。 下 面 将 列举 Akka 在 Spark 中 的 应 用 ,使 用 的 Spark 版 本 是 1. 4. 1。 

Spark 中 Client, Master, Worker 之 间 的 通信 和 是 用 Akka 框架 来 完成 的 。 如 图 12-3 所 示 是 
Spark 集群 通信 架构 图 ， 从 图 中 可 以 看 到 ， 客 户 端 编写 的 程序 在 Driver 端 运行 ，Driver 端的 
DAGScheduler 划分 出 不 同 的 Stage， 并 将 Stage 划分 成 一 个 TaskSet 交 给 TaskScheduler, Task- S 
Scheduler 将 划分 好 的 Task 通过 集群 提交 到 不 同 的 Worker 市 点 进行 计算 ,计算 完成 之 后 
Worker 将 运行 状态 和 结果 通过 集群 返回 Master。 


Spark 集 群 i Worker 


Executor 


Worker 
Executor 


Task 


图 12-3 Spark 通信 构架 

e Client: 负责 提交 作业 到 Master, 

© Master; 接收 Client 提交 的 作业 ， 管 理 Worker， 并 命令 Worker 启动 Driver 和 Executor, 

© Worker, 负责 管理 本 节点 的 资源 ， 定 期 向 Master 汇报 心跳 ， 接 收 Master 的 命令 ， 例 如 

启动 Driver 和 Executor。 

下 面 将 通过 源 代码 ， 了 解 Akka 在 Spark 中 的 应 用 。 

1. Client 5 Master 的 通信 

Client 代码 ， 位 于 org. apache. spark. deploy. Client, 在 Client 中 ， 会 构建 ClientActor, Cli- 
entActor 在 preStart 方法 中 会 向 MasterActor 发 送 RequestSubmitDriver 消息 ， 请 求 提 交 Driver FE 
序 。 以 下 是 Client 的 源 代码 . 


1 val (actorSystem,_) = AkkaUtils. create ActorSystem( 

2 " driverClient" , Utils. localHostName( ) ,0, conf, new SecurityManager( conf) ) 

3 // VerifydriverArgs. master is a valid url so that we can use it in ClientActor safely 
4 for (m <- driverArgs. masters) | 

5 Master. toAkkaUrl( m, AkkaUtils. protocol ( actorSystem ) ) 

6 | 

7 // 使 用 ClientActor 初始 化 actorSystem 

8 actorSystem. actorOf( Props( classOf| ClientActor | , driverArgs , conf) ) 


代码 中 ,使 用 AkkaUtils. createActorSystem ( ) 创建 了 一 个 名 为 “driverClient” 的 Akka Sys- 
tem ,actorSystem. actorOf( Props ( classOf[ ClientActor ] , dirverArgs, conf) ) 这 名 代码 的 作用 是 创建 
ClientActor。 在 preStart 方法 中 向 MasterActor 发 起 RequestSubmitDriver 提交 请 求 ，MasterActor 在 
收 到 该 请 求 后 ， 完 成 Driver 程序 的 注册 ， 并 返回 SubmitDriverResponse 消息 ，ClientActor 将 在 
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receiveWithLogging 国 数 中 匹配 并 处 理 该 消息 。ClientActor 的 receiveWithLogging 代码 如 下 所 示 : 


override defreceiveWithLogging; PartialFunction[ Any, Unit] = | 
case SubmitDriverResponse( success , driverld, message ) => 
println( message ) 


if (success) | 


pollAndReportStatus( driverld. get) 
| else if (! Utils. responseFromBackup( message) ) | 


1 
2 
3 
4 
5. activeMasterActor = context. actorSelection( sender. path) // 得 到 ActiveMaster 的 引用 
6 
7 
8 System. exit( — 1) 
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| 


上 面 列 出 了 ClientActor 的 receiveWithLoging 方法 的 部 分 代码 ， 在 代码 中 ， 通 过 case 匹配 
返回 给 ClientActor 的 SubmitDriverResponse 消息 ， 并 进行 合适 的 处 理 。 
2. Master 与 Client 的 通信 
Master 收 到 ClientActor 发 送 的 注册 请 求 ， 在 调度 完成 之 后 将 会 向 ClientActor 发 送 Submit- 
DriverResponse 消息 。 先 来 看 一 下 Master 中 是 怎样 创建 ActorSystem 的 ，Master 的 部 分 关键 代 


码 如 下 所 示 : 
1. def main(argStrings: Array[ String] ) | 
2 SignalLogger. register( log) 
3 val conf = newSparkConf 
4. val args = newMasterArguments( argStrings , conf) 
5 val (actorSystem,_,_,_) =startSystemAndActor( args. host, args. port, args. webUiPort , conf) 
6 actorSystem. awaitTermination( ) 
koi 


在 上 面 的 代码 中 ， 可 以 看 到 调用 了 startSystemAndActor 方法 ， 该 方法 用 于 启动 ActorSys- 
temo startSystemAndActor 方法 代码 如 下 所 示 : 


1. defstartSystemAndActor( 

2 host: String, 

3 port: Int, 

4 webUiPort; Int, 

5, conf:SparkConf) ; ( ActorSystem Int, Int, Option|[ Int] ) = | 

6 valsecurityMegr = new SecurityManager( conf) 

7 val (actorSystem, boundPort) = AkkaUtils. createActorSystem( systemName , host , port , conf = conf, 
8 securityManager = securityMgr) /创建 ActorSystem 

9 val actor = actorSystem. actorOf( /得 到 masterActor 引用 


10. Props(classOf| Master | , host , boundPort , webUiPort , securityMer, conf) ,actorName ) 

11. val timeout = RpcUtils. ask Timeout ( conf) 

12. valportsRequest = actor. ask( BoundPortsRequest) (timeout) /设置 超时 时 间 

13. valportsResponse = Await. result( portsRequest , timeout). asInstanceOf[ BoundPortsResponse | 
14. (actorSystem , boundPort , portsResponse. webUIPort , portsResponse. restPort ) 
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源 代码 中 调用 了 AkkaUtils. createActorSystem， 该 方法 建立 了 sparkMaster 这 个 ActorSys- 
tem ， 然 后 调用 actorSystem. actorOf 创建 MasterActor, Æ Master 的 receive WithLogging 方法 中 ， 
接收 到 RequestSubmitDriver 请 求 并 完成 调度 之 后 ， 会 向 ClientActor 发 送 SubmitDriverResponse 
消息 ， 以 完成 Master 和 Client 之 间 的 通信 。Master 中 receiveWithLogging 部 分 源 代 码 如 下 © 
所 示 : 


1. override defreceiveWithLogging: PartialFunction[ Any, Unit] = | 

2 caseElectedLeader => | 

3. // 被 选 为 Master ,首先 判断 是 否 该 Master 原来 为 active ,如 果 是 那么 进行 Recovery 
4 

5 


| 
caseCompleteRecovery => completeRecovery( ) // 删除 没有 响应 的 worker 和 app, If ELA fir 
有 没有 worker 的 Driver 分 配 worker 


6. caseRevokedLeadership => | 
Th // Master 将 关闭 
8. } 
9. caseRegisterWorker ( id, workerHost, workerPort, cores, memory, workerUiPort, publicAddress ) 
=> 
10. | 
11. // 如 果 该 Master 不 是 active ,不 做 任何 操作 ,返回 
1, // 如 果 注 册 过 该 worker id, |] sender 返回 错误 
13. sender! RegisterWorkerFailed(" Duplicate worker ID" ) 
14. // 注 册 worker, 如 果 worker 注册 成 功 则 返回 成 功 的 消息 并 且 进 行 调度 
15. sender! RegisteredWorker( masterUrl , masterWebUiUrl ) 
16. schedule( ) 
17. // 如 果 worker 注册 失败 ,发 送 消息 到 sender 
18. sender! RegisterWorkerFailed(" Attempted to re — register worker at same address; " + work- 
erAddress ) 
19. } 
20. caseRequestSubmitDriver( description) => | 
Dil. // 如 果 master 不 是 active ,返回 错误 
22 sender! SubmitDriverResponse( false , None, msg) 
D3), // 否 则 创建 driver, 返 回 成 功 的 消息 
24. sender! SubmitDriverResponse( true , Some ( driver. id) , s" Driver successfully submitted as 
$ { driver. id} " ) 
25. } 
26. } 


3. Master 和 Worker 之 间 的 通信 

在 Worker 源 代码 中 同样 有 一 个 startSystemAndActor 方法 ， 在 该 方法 中 ,依然 调用 
AkkaUtil createActorSystem 创建 名 为 sparkWorker 的 ActorSystem， 并 通过 ActorSystem 的 ac- 
torOf 方法 创建 WorkerActor， 通 过 WorkerActor 向 Master 发 送 Register Worker 消息 ， 以 完成 
注册 。 
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12. 6 小 结 


在 本 章 中 ,讲解 了 Akka 中 使 用 Typesafe 配置 库 读 取 配 置 文件 及 Akka 中 日 志 框 架 的 选用 
及 日 志 的 配置 。Typesafe 配置 库 默 认 会 加 载 应 用 根 目录 下 的 application. | conf, json , properties | 
配置 文件 。 不 同 的 配置 文件 有 不 同 的 优先 级 ， 优先 级 从 高 到 低 如 下 : System properties 一 > 
application. conf -> application. json -> application. properties -> reference. conf。Akka 中 默认 使 
用 slf4j 日 志 框 架 ， 可 以 通过 配置 选用 熟悉 的 日 志 记录 框架 。 在 12. 1. 3 一 节 概 述 了 Akka 部 
署 及 应 用 的 场景 。 

12. 2 一 节 通 过 Akka 框架 实现 了 一 个 并 行 的 单词 统计 应 用 ，12. 3 一 节 讲 解 了 Akka 分 布 
式 环境 的 搭建 ，12. 4 一 节 讲 解 了 使 用 Akka 微 内 核 运行 应 用 ，12. 5 一 节 结 合 Spark 源 代码 ， 
探讨 了 Akka 框架 在 Spark 中 的 应 用 。 通 过 本 章 的 讲解 ， 读 者 朋友 们 基本 上 掌握 了 Akka 的 使 
用 ， 并 能 将 Akka 应 用 于 不 同 的 场景 。 
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第 13 并 Kafka 设计 理念 与 基本 架构 > 


Kafka 是 用 Scala 语言 实现 的 一 个 分 布 式 消息 队列 系统 ， 由 于 Kafka 具有 高 否 叶 量 及 可 水 
平 扩展 的 独特 特性 。 目 前 很 多 公司 将 Kafka 作为 消息 系统 和 多 种 类 型 的 数据 管道 首选 系统 ， 
现在 如 Spark, Apache Storm, Cloudera Hadoop 这 样 的 大 数据 开源 分 布 式 处 理 系统 也 支持 Kaf- 
ka 集成 。 为 何 Kafka 在 大 数据 实时 处 理 分 析 平 台 架 构 中 如 此 受 欢 迎 ? 如 何在 流 数据 平台 中 灵 
活 驾 驭 Kafka? 怎样 编写 Kafka 的 应 用 程序 来 处 理 不 同情 景 的 业务 ? 

为 了 回答 这 些 问 题 ， 为 了 更 好 地 将 Kafka 技术 引入 到 自己 的 技术 栈 ， 本 书 将 通过 接 下 来 
的 3 章 内 容 详细 讲解 Kafka。 第 13 章 从 设计 理念 与 基本 架构 人 手 ， 让 大 家 能 从 整体 上 理解 
Kafka; 第 14 音 主 要 从 核心 组 件 及 核心 特性 角度 来 详细 分 析 Kafka， 让 大 家 对 Kafka 的 细 枝 末 
节 了 如 指 掌 ; 第 15 章 主要 从 实战 编程 的 角度 人手 ， 让 用 户 能 灵活 地 运用 Kafka 解决 实际 业 
务 问题 。 本 章 主要 阐述 Kafka 的 产生 原因 、Kafka 的 特点 及 Kafka 系统 的 应 用 场景 、Kafka 的 
整体 框架 及 设计 理念 理解 、Kafka 的 系统 分 析 及 优化 、Kafka 未 来 的 研究 方向 等 。 
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Feel Kafka 产生 的 背景 


Kafka 是 LinkedIn 公司 于 2010 年 决定 构建 的 一 个 系统 ， 主 要 用 来 对 各 种 数据 系统 机 制 的 
集成 和 相同 的 数据 进行 实时 人 处理 ， 专 注 于 捕获 数据 流 的 设计 思想 ， 就 是 Apache Kafka 的 起 
源 。 那 么 为 什么 要 设计 一 个 系统 来 专门 捕获 数据 流 呢 ? 

Confluent 联合 创始 人 Jay Kreps， 结 合 自 己 过 去 5 年 中 在 LinkedIn 构建 Apache Kafka 的 经 
验 描 述 中 发 现 ， 他 说 当时 面临 着 两 个 环 手 的 问题 ， 第 一 ， 怎 样 在 不 同 的 数据 系统 中 传递 数 
据 ， 而 且 这 些 数据 系统 还 部 署 在 不 同 的 地 理 位 置 ， 其 中 的 数据 系统 包括 关系 型 数据 库 OLTP, 
OLAP 数据 库 、 衍 生 的 键 值 数据 库 、Hadoop 、Teradata 、 搜 索引 擎 、 监 控 系 统 等 ; 第 二 ， 怎 
样 用 这 些 数 据 低 延 退 地 进行 更 加 丰富 的 数据 分 析 处 理 ， 换 名 话说， 就 是 现在 所 说 的 “ 流 处 
理 ”。 面 对 这 些 问题 ， 他 们 起 初 的 解决 方案 是 ， 在 数据 系统 和 应 用 程序 之 间 ， 通 过 可 操纵 的 
管道 来 实现 数据 的 传输 和 异步 处 理 。 但 是 随 着 时 间 的 推移 ， 业 务 逻 辑 的 不 断 复 杂 ， 应 用 程序 
不 断 增 多 ， 这 种 组 织 架 构 越 来 越 复杂 ， 以 至 于 他 们 不 得 不 终止 这 种 通过 建立 数据 管道 ， 在 不 
同 数据 系统 中 传递 数据 的 方案 。 因 此 Kafka 也 在 这 种 场景 下 应 运 而 生 。 

在 LinkedIn 公司 中 ，Kafka 主要 用 于 运营 数据 处 理 管道 和 活动 流 数据 处 理 。 活 动 流 数 据 
处 理 主要 指 用 户 对 网 站 内 容 的 查看 、 网 站 页 面 的 访问 量 、 用 户 搜索 记录 等 信息 进行 统计 分 
析 。 但 是 现在 Kafka 已 经 被 很 多 公司 用 来 作为 不 同类 型 的 数据 管道 和 消息 系统 来 使 用 ， 实 际 
上 Kafka 是 一 个 具有 独特 特性 的 分 布 式 消息 队列 系统 。 


语言 基础 与 开发 实战 


消息 队列 系统 


EH e 2 


消息 队列 系统 可 以 认为 是 一 个 用 来 进行 消息 传输 、 保 存 消 息 的 容器 ， 其 中 的 消息 即 同一 
台 服 务 器 或 者 是 不 同 服务 器 进程 间 传 递 的 数据 信息 。 消 息 队 列 系 统 最 重要 的 设计 思想 就 是 生 
产 者 与 消费 者 解 厢 ,使 系统 中 的 依赖 尽 可 能 减少 。 换 句 话 说 ， 只 要 是 消息 数据 格式 不 变 ， 接 
收 者 的 地 理 位 置 、 接 口 其 至 配置 的 更 改 ， 也 不 会 给 数据 发 送 者 带 来 任何 改变 ， 即 消息 接收 者 
不 需要 知道 消息 发 送 者 是 谁 ， 消 息 发 送 者 不 需要 知道 消息 接收 者 是 谁 。 知 道 了 消息 队列 系统 
设计 的 核心 思想 ， 你 也 许 会 问 ， 在 实际 使 用 中 ， 为 什么 要 用 消息 队列 系统 ， 消 息 队 列 系统 给 
实际 生产 应 用 中 的 业务 带 来 了 什么 样 的 优势 呢 ? 

为 了 让 大 家 更 好 地 理解 消息 队列 系统 的 优势 ， 先 从 实际 情景 的 角度 出 发 ， 以 BS ( Brow- 
ser — Server) 通信 模型 和 Master - Worker 的 分 布 式 模 型 来 回答 这 个 问题 。 

第 一 ，BS (Browser - Server) 通信 模型 ， 在 很 多 BS 架构 中 ， 当 用 户 通 过 浏览 器 向 服务 
器 发 送 请 求 后 ， 会 一 直 跟 服务 器 保持 连接 ， 等 待 服务 器 的 响应 。 但 是 由 于 网 络 等 原因 ， 很 有 
可 能 会 出 现 用 户 连 接 超时 、 服 务 器 请 求 失 败 的 情况 ， 如 果 这 种 情况 频繁 发 生 ， 用 户 体验 会 受 
到 很 大 的 影响 。 如 果 在 服务 器 和 浏览 器 间 添 加 一 个 消息 队列 系统 ， 就 能 很 好 地 解决 上 面 的 问 
题 ， 用 户 通 过 浏览 器 向 服务 器 发 送 请 求 后 ， 服 务 器 接 到 响应 后 立即 向 浏览 器 回应 ,不 再 需要 
浏览 器 一 直 保 持 这 个 连接 ， 服 务 器 直接 将 请 求 的 完整 结果 信息 发 送 到 消息 队列 系统 中 。 浏 览 
器 端 可 以 用 AJAX 等 技术 循环 请 求 消息 队列 系统 ， 检 查 并 获取 最 新 的 结果 消息 ， 并 将 结果 泻 
染 到 浏览 器 界面 上 。 这 样 引入 消息 队列 则 避免 了 传统 进程 通信 模型 的 弊端 ， 典 型 的 mvokev 
Respond 模型 如 图 13-1 所 示 ， 典 型 的 消息 队列 处 理 流程 如 图 13-2 所 示 。 


Available No Message 


Process Processor 
Messages 


图 13-1 典型 的 Invoke/Respond 模型 图 13-2 典型 的 消息 队列 处 理 流程 


Message 


Request 


Response 


第 二 ，Master - Worker 的 分 布 式 模型 ， 只 要 稍微 了 解 大 数据 架构 ， 就 会 知道 这 种 模型 ， 
比如 MapReduce 的 设计 思想 ， 先 来 看 看 传统 Master - Worker 的 分 布 式 模 型 的 处 理 方式 ，Mas- 
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ter 要 管理 分 配 Worker 的 任务 ， 主 要 通过 Worker 的 心跳 机 制 来 完成 。 通 过 心跳 机 制 ，Master 
知道 哪些 Worker 处 于 空闲 状态 并 能 接受 任务 ， 通 过 调度 均衡 策略 Master 挑选 一 个 Worker 
并 建立 连接 ， 发 送 任务 信息 数据 包 ， 之 后 Worker 收 到 数据 信息 包 后 进行 解析 执行 ， 并 通过 
协议 向 Master 反馈 信息 。 但 是 如 果 Worker 许久 没有 反馈 〈 这 个 一 般 通过 配置 文件 进行 国 值 
设置 ) Master 会 通过 自己 已 有 的 机 制 来 判断 该 Worker 的 实际 情况 和 状态 ， 一 旦 判断 这 个 
Worker 出 现 异 常 就 会 再 挑选 一 个 Worker 来 分 配 执行 任务 。 

大 家 会 发 现 这 种 方式 会 给 Master 节点 带 来 很 大 的 压力 ， 实 现 过 程 也 特别 复杂 。 但 是 在 
Master 节点 和 Worker 节点 之 间 加 入 消息 队列 系统 $ 这 种 压力 就 会 得 到 很 好 的 缓解 。 这 里 可 
以 用 两 个 消息 队列 来 做 这 个 事情 ， 一 个 用 来 处 理 Master 下 发 任务 的 消息 队列 ，Worker 周期 
性 检查 该 队列 来 接收 执行 任务 ; 另 一 个 用 来 接收 Worker 节点 执行 结果 信息 反馈 队列 ，Master 
也 周期 性 地 检查 该 队列 ， 汇 总 Worker 节点 的 反馈 结果 ， 这 样 一 个 消息 队列 系统 就 可 以 解决 
这 种 一 对 多 或 者 少 对 多 的 消息 接收 模型 。 

通过 上 面 实 际 应 用 的 分 析 ， 大 家 或 许 对 消息 队列 系统 有 了 一 个 初步 的 认识 ,但 消息 队列 
(Message Queue) 产品 很 多 ， 开 源 的 也 不 少 。 为 了 让 大 家 能 更 好 地 认识 这 些 产 品 ， 灵 活 根据 
实际 业务 应 用 选择 合适 的 消息 队列 系统 ， 下 一 小 节 将 进行 详细 阐述 。 


13. 2.2 


常用 的 消息 队列 系统 对 比 ) 


消息 队列 系统 一 个 独特 的 设计 特点 就 是 生产 者 跟 消费 者 松 耘 合 特性 ， 这 种 设计 优势 也 仪 
只 能 用 于 单一 业务 的 消息 队列 处 理 。 换 句 话 说， 通用 的 消息 队列 系统 对 单一 职责 的 消费 者 生 
产 者 模型 比较 适用 ， 但 是 在 实际 的 企业 中 ， 要 进行 多 系统 之 间 的 消息 通信 ， 就 会 用 到 消息 总 
线 的 概念 。 消 息 总 线 是 在 消息 队列 系统 提供 的 技术 支撑 上 ， 封 装 出 来 的 更 适合 消息 交互 的 实 
际 业务 场景 。 而 消息 队列 系统 则 只 提供 一 种 消息 通信 的 实现 机 制 (消息 的 读 写 、 消 息 的 发 
送 、 消 息 缓存 、 数 据 压缩 等 )。 因 此 ， 在 公司 生产 中 ,工程 师 主要 是 基于 已 有 的 开源 的 消息 
队列 系统 来 封装 自己 业务 需求 的 消息 总 线 。 这 样 就 省 去 了 自己 开发 类 似 的 消息 队列 或 者 
MessageBroker 的 成 本 和 工作 量 。 为 了 更 好 地 运用 消息 队列 ， 大 家 对 比 一 下 常用 的 消息 队列 
系统 ， 如 表 13-1 所 示 。 


表 13-1 常用 的 消息 队列 (Message Queue) 功能 对 比 
ActiveMQ ZeroMQ RabbitMQ Kafka/Jafka 
所 属 社区 /公司 Apache iMatix Mozilla Apache/LinkedIn 
开发 语言 Java C++ Erlang Scala/Java 
持久 化 支持 到 文件 或 数据 库 不 支持 支持 到 文件 支持 
事务 支持 不 支持 不 支持 不 支持 
集群 支持 不 支持 支持 支持 
负载 均衡 支持 不 支持 支持 支持 
动态 扩容 不 支持 不 支持 不 支持 支持 (Zookeeper) 
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以 上 都 是 开源 的 消息 队列 系统 ， 其 中 RabbitMQ 除了 本 身 支持 很 多 协议 外 ， 也 是 一 个 重 
量 级 开源 消息 队列 ， 特 别 适合 企业 级 开发 ， 同 时 也 实现 了 Broker 架构 ， 也 就 是 说 在 发 送 消 
息 给 客户 端的 时 候 必 须 先 在 中 心 队 列 排队 ; ZeroMQ 号 称 最 快 的 消息 队列 系统 ， 特 别 适 合 
吐 量 高 的 应 用 场景 ， 开 发 工程 师 可 以 运用 ZeroMQ 来 实现 RabbitMQ 不 擅长 的 复杂 /高 级 的 队 
列 ， 但 是 要 组 合 多 种 技术 架构 ， 应 用 的 复杂 度 也 比较 高 。 

其 中 ，Twitter 的 Storm 0. 9. 0 以 前 的 版 本 中 默认 使 用 ZeroMQ 作为 数据 流 的 传输 ，Storm 
0. 9.0 之 后 的 版 本 数据 传输 模块 同时 支持 Netty 和 ZeroMQ; ActiveMQ 既 类 似 ZeroMQ, 也 类 
似 RabbitMQ ， 可 以 用 少量 代码 高 效 地 实现 高 级 应 用 场景 ;Kafka 的 一 个 独特 的 特点 就 是 支持 
动态 扩容 ， 如 能 在 0(1) 的 系统 开销 下 进行 消息 持久 化 ， 其 中 Broker, Producer, Consumer 
都 原生 自动 支持 分 布 式 ， 自 动 实现 负载 均衡 ,支持 Hadoop 数据 并 行 加 载 等 。 除 性 能 好 外 ， 
是 一 个 工作 良好 的 非常 轻 量 级 的 分 布 式 消息 系统 ，Jafka 是 在 Apache Kafka 之 上 孵化 而 来 的 ， 
可 以 说 是 Kafka 的 一 个 升级 版 本 。 


Kafka 特点 及 特性 D 


Kafka 是 一 个 高 性 能 、 跨 语言 分 布 式 发 布 /订阅 消息 队列 系统 ，Kafka 支持 分 区 、 分 布 
式 ， 具 有 可 扩展 性 强 、 高 吞吐 量 、 支 持 多 客户 端 语 言 (Python, Java, C++) 等 特点 。Kaf- 
ka 的 组 成 分 为 客户 端 和 服务 需 端 两 个 部 分 ， 其 中 客户 端 为 Producer 和 Consumer， 提 供 API, 
而 服务 器 端 为 Broker， 客 户 端 向 Broker 发 送 消息 、 消 费 消 息 ， 服 务 器 端 用 来 存储 消息 等 功 
能 ，Kafka 的 设计 目标 如 下 : 

1) 高 效 的 消息 持久 化 能 力 : Kafka 读 取消 息 的 时 间 复 杂 度 为 0(1), 可 以 使 消息 持久 化 ， 
即使 是 TB 级 别 的 数据 也 能 保持 常数 级 别 的 时 间 复 杂 度 。 

2) AMIE, (RIER: Kafka 充分 利用 磁盘 的 顺序 读 写 ， 数据 批 量 发 送 ， 数据 压缩 处 
理 ， 即 使 在 非常 廉价 的 商用 机 器 上 也 能 做 到 单机 支持 每 秒 100 KB + 的 消息 传输 。 

3) 支持 消息 分 区 及 分 布 式 消费 : Kafka Server 间 能 进行 消息 分 区 及 分 布 式 消 费 ， 可 以 保 
证 每 个 Partition 内 的 消息 顺序 传输 ， 提 高 消息 传输 效率 。 

4) 文 持 动 态 扩 容 : Kafka 通过 Zookeeper 来 文 持 Broker 节点 的 增加 ， 只 要 新 增 的 Broker 
向 Zookeeper 注册 ，Producer 及 Consumer 会 根据 Zookeeper 上 的 watcher 感知 这 些 变化 ， 并 及 
时 做 出 相应 的 调整 。 

5) 同时 支持 实时 数据 处 理 和 离线 数据 处 理 。 


Kafka 系统 应 用 场景 D 


Kafka 是 一 个 分 布 式 的 、 多 分 区 的 、 多 副本 (注意 ; 多 副本 在 0. 8. * 以 上 版 本 才 文 持 ) 
的 消息 队列 系统 ,但 是 在 做 日 志 活 动 流 数据 分 析 时 ，Kafka 是 一 个 不 错 的 选择 。 因 为 通过 
Kafka 集成 可 以 将 日 志 收 集 、ETL (Extraction - Transformation -Loading) 、 消 息 处 理 、 流 式 处 
理 等 相关 的 工作 统一 在 一 个 平台 上 。 更 值得 关注 的 是 ， 基 于 Kafka 的 集成 可 以 构建 一 个 拥有 
高 吞吐 量 、 低 延 时 的 实时 、 在 线 、 离 线 分 析 系 统 。 

活动 流 数 据 分 析 主 要 是 指 用 户 对 网 站 内 容 的 查看 、 网 站 页 面 的 访问 量 、 用 户 搜索 记录 、 
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数据 服务 器 运行 情况 (AN CPU, 1/0, IRS Aa, ORM) 等 的 信息 进行 统计 分 析 ， 收 
集 这 些 数据 也 有 很 多 方法 ， 这 就 需要 大 家 灵活 运用 Kafka 来 搭建 综合 数据 分 析 系 统 。Kafka 
的 运用 场景 汇总 如 下 所 示 : 

1) 日 志 收 集 : 可 以 基于 Katka 来 汇聚 各 种 服务 的 日 志 信息 ， 之 后 通过 Kafka 统一 接口 
服务 的 方式 将 消息 发 送 到 不 同 的 消费 者 ， 例 如 关系 数据 库 、 数 据 仓 库 、Hadoop 、HBase、 
Solr 等 。 

2) 用 户 活 动 跟踪 : Kafka 经 常 被 用 于 汇集 用 户 活 动 信息 ， 如 浏览 网 页 、 搜 索 、 点 击 等 
活动 ， 这 些 活动 信息 被 服务 器 发 送 到 Kafka 的 Topic 中 ， 然 后 消费 者 订阅 这 些 Topic 来 做 实 
时 的 监控 分 析 ， 或 者 做 实时 、 在 线 、 离 线 分 析 和 挖掘 。 

3) 运营 指标 /运行 监控 : Kafka 也 经 常用 来 汇集 运营 监控 数据 。 这 些 数据 包括 各 种 分 布 
式 应 用 的 数据 ， 生 产 各 种 操作 的 集中 反馈 ， 比 如 报警 和 报告 ， 以 便 发 生 故 障 时 可 以 及 时 触发 
报警 器 。 

4) 安全 领域 : 通过 汇集 相关 的 数据 ， 基 于 Kafka 集成 可 以 设计 一 个 能 实时 检测 恶意 访 
问 的 监控 和 预防 系统 ,来 防止 站 点 中 恶意 的 怜 虫 ， 并 能 及 时 限制 其 API。 

5) 批 处 理 / 报 表 系 统 : 通过 Kafka 汇集 的 数据 ， 之 后 将 这 些 数据 导入 到 Hadoop 系统 或 
者 数据 仓库 中 ,来 进行 离线 分 析 和 报表 生成 以 便 商 业 决 策 。 

6) 流 式 处 理 : 比如 spark streaming 和 storm, 
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pesi 专业 术语 解析 ) 


Kafka 和 其 他 的 消息 队列 系统 类 似 ， 但 是 表述 的 名 称 不 同 ， 下 面 将 相关 的 概念 和 术语 进 
行 汇总 ， 便 于 后 文 的 阅读 : 

o 消息 (Message): 是 指 在 生产 者 、 服 务 端 和 消费 者 之 间 传 输 数 据 。 

e 消息 代理 /消息 服务 器 (Message Broker): 通俗 地 说 ， 就 是 指 用 来 存储 消息 队列 的 服 
F tit 0 

e 消息 生产 者 (Message Producer): 负责 发 布 消息 到 Kafka Broker, 

e 消息 消费 者 (Message Consumer): 负责 消息 的 消费 ， 即 将 消息 发 送 到 哪里 去 ，Kafka 
中 每 个 Consumer 属于 一 个 特定 的 Consumer Groupo fF Consumer High Level API 时 ， 
同一 个 Topic 的 一 条 消息 只 能 被 同一 个 Consumer Group 内 的 一 个 Consumer 消费 ,但 多 
个 Consumer Group 可 同时 消费 这 一 消息 。 

e 消息 的 主题 (Message Topic): 由 用 户 定义 并 在 Broker 上 配置 。Producer 发 送 消息 到 
某 个 Topic F, Consumer 从 某 个 Topic 下 消费 消息 。 不 同 的 Topic 在 物理 上 是 分 开 存 储 
的 ,但 是 逻辑 上 的 一 个 Topic， 可 能 存储 在 一 个 或 者 多 个 Broker 上 。 使 用 时 ， 用 户 只 
需 指定 消息 的 Topic， 生 产 者 和 消费 者 并 不 关心 数据 存储 的 位 置 。 

o 主题 的 分 区 (Partition): 每 个 Topic 包含 一 个 或 多 个 Partition ， 每 个 分 区 是 一 个 有 序 ， 
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是 不 可 变 的 ， 顺 序 递增 的 Commit Log， 用 户 创建 Topic 时 可 指定 Partition 的 数量 ， 每 
个 Partition 对 应 于 一 个 文件 夹 ， 该 文件 夹 下 存储 该 Partition 的 数据 和 索引 文件 。 

e 消费 者 分 组 (Consumer Group): 由 多 个 消费 者 组 成 ， 共 同 消费 一 个 Topic 下 的 消息 ， 
每 个 消费 者 消费 部 分 消息 。 这 些 消费 者 就 组 成 一 个 分 组 ， 拥 有 同一 个 分 组 名 称 ， 通 党 


也 称 为 消费 者 集群 。 
© MEE (Offset): 分 区 中 的 消息 都 有 一 个 递增 的 id， 称 为 offset。 它 唯一 标识 了 分 区 
中 的 消息 。 


消息 存储 与 缓存 设计 


对 消息 进行 存储 和 缓存 时 ，Kafka 依赖 于 文件 系统 。 随 着 计算 机 的 快速 发 展 ， 硬 盘 的 吞 
吐 量 与 磁盘 的 寻 道 时 间 严 重 不 匹配 ， 用 磁盘 进行 数据 持久 化 结构 设计 时 ， 人 们 对 这 种 结构 设 
计 的 性 能 抱 有 很 大 的 怀疑 ， 始 终 认为 “磁盘 比较 慢 ”。 实 际 上 ， 实 验 表明 这 主要 取决 于 磁盘 
的 使 用 方式 ， 设 计较 好 的 磁盘 结构 往往 可 以 和 网 络 一 样 快 。 

比如 ， 在 一 个 由 6 个 7200rpm 的 SATA 硬盘 组 成 的 RAID -5 BREIE, RESA 
(Linear Write) 的 速度 大 约 是 300 MB/s。 但 随机 写 人 却 只 有 $0kB/s， 其 中 的 差别 接近 10 000 
音 。 实 际 上 ， 在 某 些 情况 下 ， 顺 序 磁盘 访问 比 随机 内 存 访问 还 要 快 ! 所 以 现代 的 操作 系统 都 
会 乐于 将 所 有 空闲 内 存 转 做 磁盘 缓存 ， 但 在 需要 回收 这 些 内 存 的 情况 下 ， 会 付出 一 些 性 能 方 
面 的 代价 。 再 看 看 基于 JVM 的 基础 开发 的 系统 ,在 内 存 的 使 用 上 要 注意 两 点 ， 第 一 ，Java 
对 象 的 内 存 开 销 (overhead) 非常 大 ， 往 往 是 对 象 中 存储 数据 所 占 内 存 的 两 倍 (或 更 糟 ); 
B, Java 中 的 内 存 垃圾 回收 会 随 着 堆 内 数据 不 断 增长 而 变 得 越 来 越 不 明确 ， 回 收 所 花费 的 
代价 也 会 越 来 越 大 。 

由 于 这 些 因素 ,使 用 文件 系统 并 依赖 于 页 面 缓存 要 优 于 自己 在 内 存 中 维护 一 个 缓存 结 
构 ， 这 就 让 人 联想 到 一 个 非常 简单 的 设计 方案 : 不 是 在 内 存 中 保存 尽 可 能 多 的 数据 ， 在 需要 
时 将 这 些 数据 刷新 (Flush) 到 文件 系统 ， 而 是 要 做 完全 相反 的 事情 。 所 有 数据 都 要 立即 写 
入 文件 系统 的 持久 化 日 志 中 ， 但 不 进行 刷新 数据 的 任何 调用 。 在 实际 中 这 么 做 ,意味 着 数据 
被 传输 到 OS 内 核 的 页 面 缓存 中 了 ，0S 随后 会 将 这 些 数 据 刷 新 到 磁盘 中 。 此 外 这 里 添加 了 
一 条 基于 配置 的 刷新 策略 ， 人 允许 用 户 控制 把 数据 刷新 到 物理 磁盘 的 频率 (每 当 接 收 到 NN 条 
消息 或 者 每 过 要 秒 )， 从 而 可 以 在 系统 硬件 崩 演 时， 对 “处 于 危险 之 中 ”的 数据 在 量 上 加 
个 上 限 。 因 此 ， 如 果 大 家 使 用 磁盘 的 方式 更 倾向 于 线性 读 取 操作 ， 那 么 随 着 每 次 磁盘 的 读 取 
操作 ， 预 读 就 非常 高 效 地 将 使 用 之 后 定 能 用 得 着 的 数据 填充 缓存 。 这 也 就 是 offset 的 递增 顺 
序 读 取 ， 能 够 大 量 提高 读 取 IO 的 性 能 。 


消费 者 与 生产 者 模型 ) 


生产 者 一 消费 者 模型 间 题 又 被 称 为 “有 限 缓冲 区 ” 间 题 ， 即 至 少 一 个 生产 者 与 至 少 一 
个 消费 者 针对 一 个 公用 的 初始 大 小 固定 的 缓冲 区 进行 操作 。 首 先 ， 缓 冲 区 是 公用 的 或 者 说 是 
共享 的 。Producer 进程 将 消息 放 和 人 缓冲 区 ，Consumer 进程 从 缓冲 区 获得 消息 。 这 个 缓冲 区 一 
股 被 实现 为 队列 结构 ， 比 如 基于 共享 内 存 队列 结构 。 有 了 缓冲 区 后 ， 大 家 来 看 看 Producer H 
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程 和 Consumer 进程 的 配合 使 用 情景 。 

1) 通过 进程 间 的 互 斥 锁 来 对 缓冲 区 进行 互 斥 访问 ， 以 解决 多 个 Producer 进程 和 Con- 
sumer 进程 之 间 的 配合 问题 。 这 种 解决 方案 使 得 Consumer 进程 大 多 数 时 间 在 忙 等 待 ， 空 耗 计 
算 资 源 。 

2) 采用 条 件 变 量 ，Consumer 进程 在 条 件 变量 上 等 待 ，Producer 进程 生产 出 数据 后 ， 可 
采用 特定 逻辑 去 唤醒 某 个 Consumer 或 者 全 部 Consumer 进程 ( Broadcast)。 这 种 方案 使 得 
Consumer 进程 多 数 情况 下 都 在 挂 起 状态 ， 在 缓冲 区 没有 数据 的 情况 下 也 无 法 去 做 别 的 事情 。 

3) 基于 条 件 变量 ， 不 同 的 是 在 Consumer 进程 中 创建 了 一 个 工作 线程 ， 并 由 该 工作 线程 
来 做 条 件 变量 的 等 待 。 同 时 每 个 Consumer 进程 中 工作 线程 和 主线 程 通过 Pipe 的 方式 配合 。 
Producer 进程 主线 程 生成 一 条 数据 后 ， 就 会 发 起 一 个 唤醒 操作 。 被 唤醒 的 Consumer 进程 的 
工作 线程 则 通过 Pipe 告知 主线 程 ， 主 线程 一 般 通过 多 路 复 用 (select or poll) 监听 Pipe 并 及 
时 获得 通知 去 获取 缓冲 数据 。 这 种 解决 方案 的 缺陷 是 ， 常 出 现 工作 线程 无 法 退出 的 问题 : 当 
Consumer 进程 退出 前 ， 工 作 线程 因 无 法 从 条 件 变量 的 阻塞 状态 下 唤醒 并 退出 ， 导 致 主线 程 
在 Join 该 工作 线程 时 挂 起 而 无 法 退出 。 

4) 用 可 靠 信 号 机 制 + 进程 内 Pipe 机 制 。Producer 进程 在 生产 后 数据 发 送 UNIX 可 靠 信 
号 ( >SIGRTMIN) 给 所 有 注册 的 Consumer 进程 。Consumer 进程 设置 的 可 靠 信 号 处 理 函 数 
的 逻辑 较为 简单 ， 就 是 向 Pipe 写 和 人 一 个 字 节 数据 ， 这 样 当 信号 中 断 处 理 完毕 后 ，Consumer 
进程 就 可 以 收 到 Pipe 的 POLL_IN 事件 了 。 

5) 通过 UNIX FIFO 做 Producer, Consumer 进程 间 通 知 的 机 制 。FIFO 机 制 简 单 、 数 据 可 
靠 ， 且 在 一 定数 据 长 度 下 的 数据 写 入 都 是 原子 操作 。FIFO 与 缓冲 区 一 道 做 初始 化 创建 ， 要 
操作 缓冲 区 的 Producer, Consumer 进程 ， 都 要 事先 打开 FIFO 以 写 和 或 读 出 数据 。Producer 
进程 输出 数据 后 ， 癌 FIFO 写 入 数据 以 表示 通知 。 某 个 Consumer 进程 从 FIFO 中 读 取 通知 并 
开始 处 理 缓冲 区 数据 ， 每 个 进程 一 般 只 从 FIFO 读 取 一 个 字 节 表示 收 到 信号 。 

Kafka 的 设计 思想 之 一 是 高 否 叶 量 、 高 扩展 性 ， 因 而 Kafka 在 Producer 与 Consumer 模型 
之 间 的 数据 传送 采用 了 独特 的 Pull 与 push 机 制 。 即 Producer 使 用 push 模式 将 消息 发 布 到 
broker, Consumer 使 用 pull 模式 从 broker 订阅 并 消费 消息 。 


Push 与 Pull 机 制 +) 


作为 一 个 消息 系统 ，Kafka 遵循 了 传统 的 方式 ， 选 择 由 Producer 向 Broker push JAM, JF 
由 Consumer 从 Broker Pull 消息 。 一 些 Logging - Centric 系统 ， 比 如 Facebook 的 Scribe 和 
Cloudera 的 Flume， 采 用 Push EA, FRE, Push 模式 和 Pull 模式 各 有 优 劣 。 

Push 模式 很 难 适 应 消费 速率 不 同 的 消费 者 ， 因 为 消息 发 送 速率 是 由 Broker 决定 的 。 
Push 模式 的 目标 是 尽 可 能 以 最 快 的 速度 传递 消息 ， 但 是 这 样 很 容易 造成 Consumer 来 不 及 处 
理 消 息 ， 典 型 的 表现 就 是 拒绝 服务 及 网 络 拥塞 。 而 Pull 模式 则 可 以 根据 Consumer 的 消费 能 
力 以 适当 的 速率 消费 消息 。 

对 于 Kafka 的 Consumer 而 言 ，Pull 模式 更 合适 。Pull 模式 可 简化 Broker 的 设计 ，Con- 
sumer 可 自主 控制 消费 消息 的 速率 ， 并 且 Consumer 可 以 自己 控制 消费 方式 一 一 既 可 批量 消 
费 ， 也 可 逐条 消费 ， 同 时 还 能 选择 不 同 的 提交 方式 ， 从 而 实现 不 同 的 传输 语义 。 
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下 二 2 镜像 机 制 


需要 注意 的 是 ， 一 个 Kafka 集群 处 理 来 自 不 同 数据 源 的 活动 数据 ， 这 就 为 离线 和 在 线 消 
费 者 (Consumer) 提供 了 一 个 单一 的 数据 流水 线 ， 为 在 线 活动 和 异步 处 理 提供 了 一 层 缓存 ， 
还 用 Kafka 来 将 数据 复制 到 不 同 的 数据 仓库 ， 以 便 离线 处 理 。 

很 多 公司 不 想 让 一 个 Kafka 集群 跨越 所 有 的 数据 中 心 ， 但 是 Kafka 是 支持 多 数据 中 心 的 
数据 流 拓扑 结构 。 这 可 以 通过 在 集群 之 间 “ 镜 像 ”或 者 “同步 ”来 实现 。 这 个 特性 非常 简 
单 ， 只 要 将 镜像 集群 作为 源 集群 的 消费 者 即 可 。 这 就 意味 着 可 以 将 多 个 数据 中 心 的 数据 集中 
到 一 个 集群 中 来 。Kafka 集群 镜像 拓扑 结构 如 图 13-3 所 示 。 
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图 13-3 Kafka 集群 镜像 拓扑 结构 


注意 : 在 这 两 个 集群 里 ， 各 个 节点 之 间 是 没有 对 应 关系 的 ， 两 个 集群 的 大 小 有 可 能 不 一 
Fe, 包含 的 节点 数 也 不 一 样 ， 一 个 节点 可 以 镜像 任意 数目 的 源 集群 。 


Kafka 整体 架构 


67) Kafka 基本 组 成 结构 


在 Kafka 之 前 ， 在 面 对 日 益 增长 的 数据 量 时 ， 研 发 工程 师 需要 开发 各 种 数据 管道 来 收集 
这 些 数据 ，LinkedIn 当时 的 情景 也 是 如 此 。 通 过 LinkedIn 公布 的 文章 了 解 到 ， 他 们 当时 的 情 
景 需要 将 数据 批量 发 送 给 Hadoop 工作 流 用 于 数据 分 析 ， 需 要 让 数据 流入 数据 仓库 ， 需 要 收 
集 和 汇总 每 个 服务 的 日 志 信 息 等 。 但 是 随 着 网 站 的 发 展 ， 这 样 的 自 定义 管道 越 来 越 多 。 如 果 
网 站 需要 扩展 ， 每 个 管道 都 需要 扩展 。 因 此 ， 他 们 基于 提交 日 志 的 概念 开发 了 一 个 分 布 式 的 
发 布 订阅 消息 平台 Kafka， 作 为 通用 的 数据 管道 。 该 平台 支持 对 任何 数据 源 的 准 实 时 访问 ， 
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有 效 地 支撑 了 Hadoop 作业 和 实时 分 析 ， 极 大 地 提升 了 站 点 监控 和 预警 功能 ， 使 他 们 可 以 可 
视 化 和 跟踪 调用 。 现 在 ，Kafka 每 天 处 理 超 过 5000 亿 事 件 。Kafka 架构 基本 组 成 结构 如 


图 13-4 所 示 。 
kafka 
cluster 


图 13-4 Kafka 架构 基本 组 成 结构 


一 个 典型 的 Kafka 集群 包括 3 个 部 分 : Producer、Broker、Consumer， 其 中 的 生产 者 
(Producer) 可 以 是 Web 前 端 视图 页 面 、 系 统 服务 器 日 志 、 系 统 内 存 信息 、 系 统 CPU 信息 
等 ; 其 中 Broker 集群 接收 从 生产 者 发 送 过 来 的 消息 ，Broker 集群 数量 越 多 ,集群 吞 叶 量 就 越 
高 ， 这 就 是 所 谓 的 Katka 支持 水 平 扩展 。 之 后 从 Broker 发 送出 去 的 信息 ， 由 消费 者 ( Con- 
sumer) 来 进行 各 种 分 析 处 理 ; 其 中 的 Broker, Consumer 由 Zookeeper 集群 进行 统一 管理 配 
置 ， 比 如 选举 Leader 及 Rebalance 等 。Producer 使 用 Push 模式 将 消息 发 布 到 Broker, Con- 
sumer 使 用 Pull 模式 从 Broker 订阅 并 消费 消息 。 消 息 的 Push 与 Pull 机 制 已 经 在 Push 与 Pull 
一 节 进 行 了 详细 阐述 。 


Kafka 工作 流程 ) 


Kafka 集群 包括 3 个 部 分 : Producer, Broker, Consumer, Kafka 通过 Producer 将 消息 传 
输 到 Broker， 之 后 Consumer 从 Broker 获取 数据 ， 进 行 消费 。 因 此 可 以 这 样 理解 ，Kafka 集群 
即 Broker 集群 ， 通 过 Kafka 的 Producer API 与 Consumer API 向 外 提供 获取 消息 与 消费 消息 的 
接口 。 这 就 是 为 什么 Kafka 被 很 多 公司 用 来 作为 不 同类 型 数据 管道 和 消息 系统 的 原因 。 

Kafka 的 工作 流程 如 图 13-5 所 示 ， 被 分 为 A、B、C、D 四 个 部 分 。 其 中 A 部 分 是 消息 
的 收集 部 分 ,该 部 分 可 以 是 不 同 应 用 数据 和 日 志 ， 如 果 要 收集 这 些 数据 ， 用户 只 要 实现 Kaf- 
ka 提供 的 Producer API, Producer 基于 Push 机 制 ， 就 可 以 将 消息 传输 到 B 部 分 B 部 分 是 
Broker 集群 ， 即 Kafka 集群 ， 从 Producer 传输 来 的 消息 ， 就 存储 在 这 里 ; C 部 分 是 Consum- 
er, Consumer 通过 Pull 机 制 从 Broker 中 消费 数据 CGA), Consumer 去 向 也 是 多 种 多 样 的 ， 
比如 从 Broker 传输 过 来 的 数据 (消息 ) ， 可 以 存储 到 各 种 数据 库 中 ， 可 以 存储 到 Hadoop 集 
群 上 ， 还 可 以 用 这 些 数据 (消息 ) 进行 实时 分 析 和 计算 等 ,用 户 仅 仅 实 现 Kafka 提供 的 
Consumer API 即 可 ; D 部 分 是 元 数据 存储 与 控制 部 分 ， 该 部 分 通过 Zookeeper 集群 来 实现 ， 
换 名 话说， 数据 (信息 ) 从 Broker 传输 到 Consumer 时 ， 一 些 状 态 信 息 及 元 数据 信息 就 是 通 
过 Zookeeper 监控 及 存储 的 ， 因 此 Zookeeper 集群 要 直接 跟 Broker 和 Consumer 进行 通信 。 为 
了 便于 理解 ， 下 面 详细 地 记录 了 Producer, Broker, Consumer 处 理 消 息 工 作 流 程 。 
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Al 13-5 Kafka 的 工作 流程 区 


1) 每 个 Broker 都 可 以 配置 一 个 Topic, 一 个 Topic 可 以 有 多 个 分 区 ,但 是 在 Producer 看 
来 ,一 个 Topic 在 所 有 Broker 上 的 所 有 分 区 组 成 一 个 分 区 列表 来 使 用 。 

2) 在 创建 Producer 的 时 候 ，Producer 会 从 Zookeeper 上 获取 Publish 的 Topic 对 应 的 Bro- 
ker 和 分 区 列表 。Producer 在 通过 Zookeeper 获取 分 区 列表 之 后 ， 会 按照 Brokerld 和 Partition 
的 顺序 排列 组 织 成 一 个 有 序 的 分 区 列表 ， 消 息 发 送 的 时 候 按 照 从 头 到 尾 循环 往复 的 方式 选择 
一 个 分 区 来 发 送 。 

3) 如 果 想 实现 自己 的 负载 均衡 策略 ， 可 以 实现 相应 的 负载 均衡 策略 接口 。 

4) 消息 Producer 发 送 消息 后 返回 处 理 结 果 ， 结 果 分 为 成 功 、 失 败 和 超时 。 

5) Broker 在 接收 消息 后 ， 依 次 进行 校 验 和 检查 ， 写 入 磁盘 ， 向 Producer 返回 处 理 结 

6) Consumer 在 每 次 消费 消息 时 ， 首 先 把 offset 加 1， 然后 根据 该 偏 移 量 ， 找 到 相应 的 
消息 ， 然 后 开始 消费 。 只 有 在 成 功 消费 一 条 消息 后 ， 才 会 接着 消费 下 一 条 。 在 消费 某 条 
消息 失败 (如 异常 ) 时 ， 则 会 尝试 重 试 消费 这 条 消息 ， 超 过 最 大 次 数 后 仍然 无 法 消费 ， 
则 将 消息 存储 在 消费 者 的 本 地 磁盘 ， 由 后 台 线 程 继续 进行 重 试 。 而 主线 程 继 续 往 后 走 ， 
消费 后 续 的 消息 。 


Kafka 性 能 分 析 及 优化 


Kafka 作为 大 数据 时 代 下 一 代 消 息 队 列 系统 的 新 宠 ， 其 性 能 测试 报告 ， 可 以 参看 相关 的 
文献 。 虽 然 有 很 多 不 足 ， 但 是 Katka 在 提高 效率 等 方面 做 了 很 多 努力 ， 比 如 ， 怎 样 解决 线性 
读 写 对 磁盘 性 能 问题 的 影响 、 怎 样 使 消息 快速 传递 等 。 本 节 先 对 这 些 性 能 问题 进行 详细 分 
析 ， 之 后 从 不 同 角 度 对 Katka 的 优化 进行 详细 描述 。 前 面 分 析 Katka 的 存储 与 缓存 设计 思想 
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时 表明 ，Kafka 使 用 线性 读 写 磁盘 ， 可 以 提高 Kafka 的 吞吐 量 和 读 写 效率 。 但 是 这 又 展现 另 
外 两 个 问题 : 太 多 琐碎 的 1/0 操作 和 频繁 的 字 节 复制 。 其 中 的 0 问题 既 可 以 发 生 在 客户 端 
和 服务 端 之 间 ， 也 可 以 发 生 在 服务 器 内 部 的 持久 化 操作 中 。 

为 了 解决 上 面 的 问题 ，Kafka 使 用 了 “消息 集 (message set)” 的 概念 ， 将 消息 聚集 到 
一 起 ， 以 消息 集 为 单位 处 理 消息 ， 比 单个 的 消息 处 理 提 升 不 少 性 能 。Producer 把 消息 聚集 到 
一 块 发 送 给 服务 端 ， 服务 端 把 消息 集 一 次 性 地 追加 到 日 志文 件 中 ， 这 样 减少 了 琐碎 的 1/0 操 
作 ，Consumer 也 可 以 一 次 性 地 请 求 一 个 消息 集 。 那 么 怎样 解决 频繁 的 字 节 复制 问题 呢 ? 在 
低 负载 时 ， 这 不 会 产生 什么 问题 ， 但 是 在 高 负载 的 情况 下 ， 它 对 系统 性 能 的 影响 还 是 很 大 
的 。 为 了 避免 这 个 问题 ，Kafka 使 用 了 标准 的 二 进 制 消息 格式 ， 这 种 格式 可 以 在 Producer、 
Broker 和 Consumer 之 间 共 享 ， 而 无 须 做 任何 改动 。 

Producer, Broker 和 Consumer 之 间 有 了 统一 共享 的 数据 格式 ， 怎 样 将 消息 快速 发 送 到 网 
络 上 去 ， 也 是 一 个 性 能 优化 的 地 方 ，Kafka 就 利用 sendfile 的 零 复制 方法 来 优化 了 这 个 性 能 问 
题 ， 大 大 提高 了 数据 传输 的 效率 。 比 如 ， 在 一 个 多 Consumers 的 场景 里 ， 数 据 仅 仅 被 复制 到 
页 面 缓存 一 次 ， 而 不 是 每 次 消费 消息 的 时 候 都 重复 进行 复制 ， 这 样 在 磁盘 层面 几乎 看 不 到 任 
何 读 操作 ， 这 样 消息 会 以 近乎 网 络 带 宽 的 速率 发 送 到 网 络 上 面 去 。 

随 着 计算 机 的 快速 发 展 ， 在 系统 架构 设计 ， 特 别 是 分 布 式 系统 架构 设计 中 ， 网 络 带 宽 的 
限制 已 经 远 远 超过 了 计算 机 本 里 的 CPU 或 者 硬盘 的 限制 ， 因 此 在 数据 中 心 之 间 的 数据 传输 
中 ， 网 络 带 宽 是 性 能 提升 的 瓶 贷 。 由 于 Kafka 使 用 了 “消息 集 ( Message Set)” 的 概念 ， 消 
息 传 输 时 ，Kafka 采用 了 端 到 端的 压缩 策略 ， 客 户 端的 消息 可 以 一 起 被 压缩 后 送 到 服务 端 ， 
并 以 压缩 后 的 格式 写 入 日 志文 件 ， 以 压缩 的 格式 发 送 到 Consumer， 消 息 从 Producer 发 出 到 
Consumer 拿 到 的 数据 都 是 被 压缩 的 ， 只 有 在 Consumer 使 用 的 时 候 才 被 解压 缩 。 
通过 上 面 的 系统 分 析 ， 大 家 应 该 对 磁盘 读 写 、 零 复制 、 数 据 压缩 等 方面 的 性 能 优化 问题 
有 了 一 个 全 面 的 了 解 。 除 了 这 些 性 能 优化 策略 ， 还 可 以 从 操作 系统 预 读 、TCP 参数 等 方面 进 
行 系统 级 别 的 Katka 优化 。 下 面 从 Kafka 本 身 的 架构 进行 应 用 级 别 的 性 能 优化 分 析 。 如 
图 13-6 到 图 13-8 展示 了 Kafka 的 Producer, Broker, Consumer 的 网 络 请 求 处 理 流 程 ， 对 于 
Kafka 的 Producer 端 ，Topic 可 以 按照 Partition 分 组 批量 发 送 消息 到 不 同 的 Broker 服务 器 上 ， 
在 异步 发 送 时 ， 可 以 通过 配置 文件 设置 缓冲 区 的 大 小 和 Commit Batch 的 大 小 ; 然而 对 于 Kaf- 
ka 的 Broker， 可 以 利用 Log Index 机 制 ， 批 量 定量 或 者 定时 进行 消息 读 取 或 者 持久 化 操作 ， 
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图 13-6 Kafka Network 请 求 处 理 流 程 (Producer) 
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13-7 Kafka Network 请 求 处 理 流程 (Broker) 
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13-8 Kafka Network 请 求 处 理 流程 (Consumer) 


来 提高 Kafka 的 整体 性 能 ; 对 于 Kafka 的 Consumer 端 ， 可 以 采用 多 线程 消费 消息 、 多 线程 拉 
取消 息 、 多 队列 缓存 消息 来 提高 Consumer 端的 性 能 。 


FG Katka 未 来 研究 方向 


目前 ， 越 来 越 多 的 国内 外 公司 在 使 用 Kafka， 如 Yahoo! 、Twitter Netflix 和 Uber 等 ， 所 
涉及 的 功能 从 数据 分 析 到 流 式 处 理应 用 不 一 而 足 ， 这 也 让 大 家 特别 关注 Kafka 的 发 展 。 通 过 
LinkedIn 公布 的 相关 文档 表明 ，Kafka 的 可 靠 性 、 使 用 成 本 、 安 全 性 、 可 用 性 及 其 他 的 相关 
基础 指标 ， 成 为 Kafka 未 来 发 展 目 标 。 下 面 对 其 做 一 些 总 结 。 

1. 特征 一 : 限额 分 配 

一 般 情 况 下 ， 同 一 个 Kafka 集群 同时 被 不 同 的 应 用 使 用 ， 如 果 其 中 的 一 个 应 用 滥用 Kaf- 
ka 集群 ， 这 将 对 Kafka 集群 中 其 他 应 用 产生 性 能 和 SLA (服务 等 级 协议 ，Service - level 
Agreement) 等 影响 。 比 如 由 于 某 种 原因 ， 想 重新 处 理 整 个 数据 库 中 的 所 有 数据 ， 数 据 库 中 
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的 所 有 记录 会 迅速 推送 到 Kafka 上 ， 即 使 再 高 的 Kafka 的 性 能 ， 也 比较 容易 出 现 网 络 饱 和 及 
磁盘 的 冲击 。 

为 了 解决 这 个 问题 ，LinkedIn 的 团队 研发 了 一 项 特性 ， 如 果 每 秒 钟 的 字 节 数 超过 了 一 个 
闵 值 ， 就 会 降低 这 些 Producer 和 Consumer 的 速度 。 对 于 大 多 数 应 用 来 讲 ， 这 个 默认 的 阔 值 
都 是 可 行 的 。 但 是 有 些 用 户 会 要 求 更 高 的 带宽 ， 于 是 他 们 引入 了 白 名 单机 制 。 白 名 单 中 的 用 
户 能 够 使 用 更 高 数量 的 带宽 。 这 种 配置 的 变化 不 会 对 Kafka Broker 的 稳定 性 产生 影响 。 这 项 
特性 运行 良好 ， 有 望 在 下 一 版 本 的 Kafka 发 布 版 中 。 

2. 特征 二 : 开发 新 的 不 依赖 Zookeeper 的 Consumer 

目前 的 Kafka Consumer 客户 端 依赖 于 ZooKeeper， 这 种 依赖 会 产生 一 些 大 家 所 熟知 的 问 
题 ， 包 括 ZooKeeper 的 使 用 缺乏 安全 性 ， 以 及 Consumer 实例 之 间 可 能 会 出 现 的 脑 裂 现象 
(Split Brain), FIL, LinkedIn 与 Confluent， 以 及 其 他 的 开源 社区 合作 开发 了 一 个 新 的 Con- 
sumer。 这 个 新 的 Consumer 只 依赖 于 Kafka Broker， 不 再 依赖 于 ZooKeeper。 这 是 一 项 很 复杂 
的 特性 ， 因 此 需要 很 长 的 时 间 才 能 完全 应 用 于 生产 环境 中 。 

3. 特征 三 : 提升 Kafka 的 可 用 性 和 可 靠 性 

Kafka 在 可 靠 性 方面 的 增强 包括 ， 跨 集 群 同步 方案 、Mirror Maker 无 损 的 数据 传输 、 副 
本 的 延迟 监控 、 实 现 新 的 Producer, MER Topic 等 ， 下 面 对 这 些 特 征 进行 详细 阐述 。 

Mirror Maker 无 损 的 数据 传输 : Mirror Maker 是 Kafka 的 一 个 组 件 ， 用 来 实现 Kafka 集群 
和 Kafka Topic 之 间 的 数据 转移 。 但 是 它 在 设计 的 时 候 存在 一 个 缺陷 ， 在 传输 时 可 能 会 丢失 
数据 ， 尤 其 是 在 集群 升级 或 机 带 重 局 的 时 候 。 为 了 保证 所 有 的 消息 都 能 正常 传输 ，Kafka 在 
设计 上 做 了 修改 ,确保 只 有 消息 成 功 到 达 目 标 Topic 时 ， 才 会 认为 已 经 完全 消费 掉 了 。 

副本 的 延迟 监控 : 所 有 发 布 到 Kafka 上 的 消息 都 会 复制 副本 ， 以 提高 持久 性 ， 这 是 0. 8. 
* 版 本 推出 的 新 功能 。 当 副本 无 法 “ 跟 上 ” 主 版 本 (Master) 时 ， 就 认为 这 个 副本 处 于 非 健 
康 的 状态 。 在 这 里 ,“ 跟 上 ”的 标准 指 的 是 配置 好 的 字 节 数 延 迟 。 这 里 的 问题 在 于 ， 如 果 发 
送 内 容 很 大 的 消息 或 消息 数量 不 断 增 长 的 话 ， 那 么 延迟 可 能 会 增加 ， 系 统 就 会 认为 副本 是 非 
健康 的 。 为 了 解决 这 个 问题 ， 在 Kafka 的 新 版 本 中 ， 将 副本 延迟 的 规则 修改 为 基于 时 间 的 
判断 。 

实现 新 的 Producer: 实现 新 的 Producer， 这 个 新 的 Producer 允许 将 消息 实现 为 管道 
(pipeline) ， 来 提升 性 能 。 目 前 该 功能 尚 有 部 分 缺陷 ， 正 在 处 于 修复 之 中 。 
删除 Topic: 作为 如 此 成 熟 的 产品 ，Kafka 在 删除 Topic 的 时 候 ， 会 出 现 难以 预料 的 后 果 
或 集群 不 稳定 ， 这 一 点 颇 令 人 惊讶 。 该 缺陷 还 在 不 断 地 测试 和 修改 ， 到 Katka 的 下 一 个 主 版 
本 时 ， 就 能 安全 地 删除 Topic 了 。 

4. 特征 四 : 安全 性 

在 Kafka 中 ， 安 全 性 是 参与 者 最 多 的 特性 之 一 ， 众 多 的 公司 互相 协作 来 解决 这 一 问题 。 
其 成 果 就 是 加 密 、 认 证 和 权限 等 功能 将 会 添加 到 Kafka 中 。 

除了 上 面 的 特征 外 ， 很 多 公司 还 基于 自己 的 实际 业务 开发 出 很 实用 的 特性 和 工具 ， 
比如 LinkedIn 研发 的 Simoorg 故障 引导 框架 ， 它 针对 一 些 低 级 别 的 机 器 故障 ， 如 磁盘 写 失 
败 、 关 机 、 杀 死 进程 等 。 而 应 用 延迟 监控 Burrow 工具 ， 能 够 监控 Consumer 消费 消息 的 延 
述 ， 从 而 监控 应 用 的 健康 状况 。 更 多 的 新 特征 请 关注 Apache Kafka 官方 网 站 及 LinkedIn 最 
新 动态 。 
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FERAT Kafka 产生 的 背景 ， 并 与 常用 的 消息 队列 进行 了 比较 分 析 ， 从 而 引出 Kafka 
的 特点 及 特性 和 实际 应 用 场景 ;之 后 对 Kafka 的 设计 理念 及 基本 架构 进行 了 详细 的 阐述 ， 比 
如 Kafka 消息 存储 和 缓存 模型 Kafka 生产 者 和 消费 者 模型 ，Kafka 的 镜像 机 制 、Push 和 pull 
机 制 及 Kafka 的 工作 流程 ， 还 结合 Kafka 自身 的 设计 特点 ， 对 Kafka 的 性 能 及 优化 进行 了 详 
细 的 分 析 和 总 结 ; 最 后 结合 Kafka 官方 网 站 及 LinkedIn 的 动态 ， 对 Kafka 的 未 来 研究 方向 进 
行 了 分 析 和 总 结 。 
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Kafka 是 一 种 快速 的 、 可 扩展 的 、 分 布 式 的 、 分 区 的 和 宛 余 的 提交 日 志 服务 ， 也 称 为 分 
布 式 发 布 一 订阅 消息 系统 ， 具 有 消息 系统 常 有 的 特征 ， 比 如 解 耦 、 宛 余 、 可 扩展 性 、 灵 活 
性 、 峰 值 处 理 能 力 、 可 恢复 性 、 顺 序 保证 、 缓 存 、 异 步 通信 等 。 这 里 结合 Kafka 自身 的 设计 
详细 剖析 Kafka 核心 组 件 及 核心 特性 ， 其 中 包括 Producer, Topic 和 Partition, Replication 和 
Leader, Consumer, Low Level Consumer, High Level Consumer、 消 息 传 送 机 制 、 High Level 
Consumer Rebalance Kafka 的 可 靠 性 、Kafka 的 高 效 性 、Consumer Rewrite Design, Co - ordi- 


Fy 
nator Rebalance 等 。 


UE Kafka 核心 组 件 剖 析 


Producers 


Producer 通过 Push 的 方式 将 消息 发 送 到 Broker 时 ，Kafka 会 根据 Partition 机 制 选 择 将 消 
息 存储 到 哪 一 个 Partition。 如 果 Partition 机 制 设置 合理 ， 所 有 消息 可 以 均匀 分 布 到 不 同 的 
Partition 里 ， 这 样 就 实现 了 负载 均衡 。 如 果 一 个 Topic 对 应 一 个 文件 ,那么 这 个 文件 所 在 的 
机 器 O 将 会 成 为 这 个 Topic 的 性 能 瓶颈 ， 而 有 了 Partition 后 ， 不 同 的 消息 可 以 并 行 写 人 不 
同 Broker 的 不 同 Partition FL, PARI SAME, Topic 的 Partition 数量 可 以 通过 配置 文 
件 $ KAFKA_HOME/config/ server. properties 中 的 配置 项 num. partitions 来 指定 ， 默 认 人 参数 为 
1。 用 户 也 可 以 通过 参数 指定 的 方式 来 创建 Topic 的 Partition 数量 ， 同 时 也 可 以 在 Topic 创建 
之 后 ,通过 Katka 提供 的 工具 来 修改 Partition 数量 。 

Producer 发 送 一 条 消息 时 ， 可 以 指定 这 条 消息 的 key, Producer 根据 这 个 key 和 Partition 
机 制 来 判断 应 该 将 这 条 消息 发 送 到 哪个 Pantition。 因 此 用 户 在 编写 自己 的 类 时 ， 只 要 实现 
kafka producer. Partitioner 接口 即 可 。 假 设 这 条 消息 的 key 可 以 解析 成 整数 ， 那 么 就 可 以 将 该 
数 与 Partition 总 数 取 余数 ， 之 后 将 消息 发 送 到 指定 的 Partition 上 去 ， 其 中 Partition 序列 号 从 
零 开始 。 参 考 代码 如 下 所 示 ( 只 摘录 实现 的 partition 方法 ) : 


1. @ Override 

2: publicint partition( Object key, int numPartitions ) | 

3. try | 

4. int partitionNum = Integer. parse/nt( (String) key) ; 
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return Math. abs( partitionNum % numPartitions ) ; 


} catch (Exception e) | 
return Math. abs( key. hashCode( )% numPartitions) ; 


| 


So go E a 


| 


通过 自 定义 的 类 来 实现 Partition 接口 之 后 ， 就 可 以 在 程序 中 使 用 这 个 自 定义 类 ， 为 了 更 
加 理解 Partition 分 区 机 制 ， 这 里 用 个 实例 来 前 述 ， 比 如 先 指定 一 个 主题 TopicA， 该 TopicA 
主题 有 4 个 分 区 ， 之 后 可 以 模拟 100 条 消息 ， 其 中 消息 的 key 值 分 别 为 0、1、2 、3 ， 最 后 通 
过 程序 调用 Consumer 并 打印 消息 列表 ， 大 家 可 以 发 现 ，key 相同 的 消息 会 被 发 送 并 存储 到 同 
一 个 Partition 里 ， 而 且 key 的 序号 正好 和 Partition 序号 相同 。 

Partition 机 制 设置 合理 ，Producer 发 送 的 所 有 消息 可 以 均匀 分 布 到 不 同 的 Partition 里 。 
先 来 分 析 一 下 Kafka 支持 的 客户 端的 负载 均衡 机 制 ，Kafka 支持 消息 生产 者 在 客户 端的 负载 
均衡 ， 或 者 利用 专 有 的 负载 均衡 器 来 均衡 TCP 连接 。 一 个 专用 的 四 层 均 衡器 通过 将 TCP 连 
接 均 衡 到 Kafka 的 Broker 上 来 工作 。 在 这 种 配置 下 ， 所 有 的 来 自 同一 个 生产 者 的 消息 被 发 送 
到 一 个 Borker 上 。 这 种 做 法 的 优点 是 ,一 个 生产 者 只 需要 一 个 TCP 连接 ， 而 不 需要 与 Zoo- 
keeper 的 连接 。 缺 点 是 负载 均衡 只 能 在 TCP 连接 的 层面 上 来 做 。 因 此 ， 负 载 均 衡 的 性 能 不 
是 很 好 。 

基于 Zookeeper 的 客户 端的 负载 均衡 可 以 解决 这 个 问题 。 它 允许 生产 者 动态 地 发 现 新 的 
Broker， 并 且 在 每 个 请 求 上 进行 负载 均衡 。 同 样 的 ， 它 允许 生产 者 根据 一 些 键 将 数据 分 开 ， 
而 不 是 随机 分 ， 这 可 以 增强 与 Consumer 的 黏 性 ， 如 上 面 举 的 例子 是 根据 用 户 ID 来 划分 数据 
消费 的 情景 。 这 种 基于 Zookeeper 的 负载 均衡 ， 主 要 通过 Zookeeper Watchers 注册 机 制 来 监控 
其 动态 。Zookeeper Watchers 注册 的 事件 有 : 新 的 Broker 启动 、Broker 关闭 、 新 注册 的 Top- 
ic, Borker 注册 一 个 已 经 存在 的 Topic。 该 机 制 中 生产 者 维护 一 个 与 Borker 的 弹性 连接 池 , 
该 连接 池 基 于 Zookeeper Watchers 的 回调 函数 来 保持 更 新 ， 以 便 与 所 有 存活 的 Broker 建立 或 
者 保持 连接 。 当 一 个 Producer 对 某 一 个 Topic 有 请 求 时 ， 该 Topic 的 Partition 信息 被 返回 。 连 
接 池 中 的 一 个 连接 就 可 以 将 数据 发 送 到 前 面 所 选 的 那个 Broker 分 区 中 。 
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Consumer 是 Kafka 最 重要 的 组 件 ， 也 是 实现 Kafka 离线 、 在 线 实时 处 理 的 核心 。 因 而 设 
计 优 化 和 比较 迅速 ， 比 如 Low Level Consumer, hight level Consumer, Consumer Rebalance , 
Consumer 重新 设计 、 镜 像 机 制 等 。 为 了 让 大 家 对 Kafka 的 Consumers 有 一 个 全 面 、 深 入 的 理 
解 ， 本 节 从 这 几 个 方面 进行 详细 阐述 与 分 析 。 

Kafka 中 的 Consumer 是 基于 Pull 的 机 制 从 Broker 中 获得 消息 的 ， 换 名 话说 ， 只 要 Broker 
有 数据 ，Kafka 中 的 Consumer 就 可 以 获得 Broker 中 的 消息 ， 从 而 很 好 地 实现 了 在 线 实 时 的 效 
果 。 但 是 这 也 面临 一 些 问题 ， 例 如 当 消 息 通过 网 络 传递 给 消费 者 时 ， 此 时 如 果 消 费 者 没有 来 
得 及 处 理 Broker 就 宕 机 了 ， 但 是 Broker 却 记 录 了 该 消息 已 被 消费 ， 那 么 该 消息 就 丢失 。 为 
了 避免 出 现 这 种 情况 ， 很 多 消息 系统 会 增加 一 个 acknowledge 特性 ， 标 识 该 消息 被 成 功 消费 。 
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然后 消费 者 将 acknowledge 发 送 给 Broker， 但 是 Broker 不 一 定 能 够 获得 这 个 acknowledge， 进 
而 导致 消息 被 重复 消费 。 这 种 方法 的 缺点 是 ， 由 于 服务 器 要 维护 这 些 消息 的 处 理 状态 ， 所 以 
该 方法 会 产生 额外 的 网 络 开销 。 

在 Kafka AF, Topic 是 由 多 个 Partition 组 成 的 。 每 个 Partition 在 任意 时 刻 只 能 被 一 个 © 
Consumer 消费 。 这 意味 着 ， 每 个 Partition 里 面 的 Consumer 位 置 是 整数 ， 标 识 下 一 个 被 消费 
消息 的 offset。 还 可 以 通过 配置 文件 来 配置 定期 的 设置 检查 点 。 通 过 设置 offset 标记 方式 ， 就 
可 以 简单 地 维护 Consumer 被 消费 的 消息 。 详 细 的 Partition 机 制 请 参看 前 面 Topic 、Partitions 
部 分 。 

与 其 他 的 消息 队列 相 比 ，Kafka 的 Consumer 消费 记录 状态 (offset)， 实 际 上 被 写 入 到 了 
Zookeeper 集群 中 ， 将 Consumer 消费 记录 状态 (offset) 放 到 另外 一 个 地 方 ， 比 如 将 其 放置 在 
处 理 结 果 所 存放 的 数据 中 心 ， 效 率 会 更 高 。 为 什么 这 人 么 说 呢 ? 还 是 用 实际 的 实例 来 描述 : 在 
Kafka 集群 中 ， 某 Consumer 只 想 简单 地 处 理 一 些 和 计算 ， 并 将 结果 写 到 中 心 化 的 事务 型 
OLTP 数据 库 中 。 对 于 这 种 情景 ， 消 费 者 可 以 将 状态 信息 写 到 同一 个 事务 中 ， 这 就 解决 了 分 
布 式 一 致 性 问题 。 这 种 技巧 还 可 以 用 在 非 事务 性 系统 中 ， 如 基于 Kafka 的 搜索 系统 中 可 以 将 
消费 者 的 状态 存放 在 索引 块 中 。 虽 然 这 些 数 据 还 不 具有 持久 性 ， 但 这 意味 着 索引 可 以 和 消费 
者 状态 保持 同步 ， 如 果 一 个 没有 刷新 的 索引 块 在 一 次 故障 中 丢失 了 ， 那 么 这 些 索引 可 以 从 最 
近 的 检查 点 偏 移 处 开始 重新 消费 。 又 如 基于 Kafka 将 数据 并 行 加 载 到 Hadoop 集群 中 ， 每 个 
Mapper 在 Map 任务 的 最 后 ， 将 偏 移 量 写 到 HDFS 中 。 如 果 一 个 加 载 任 务 失 败 了 ， 每 个 Map- 
per 可 以 简单 地 从 存储 在 HDFS 中 的 偏 移 量 处 重启 消费 。 这 个 技巧 还 有 另外 一 个 好 处 ， 消 费 
者 可 以 重新 消费 已 经 消费 过 的 数据 。 这 违反 了 队列 的 性 质 ， 但 是 这 样 可 以 使 多 个 消费 者 一 起 
来 消费 。 打 个 比方 ， 如 果 一 段 Consumer 代码 出 现 了 Bug， 在 发 现 Bug 之 前 这 个 Consumer 消 
费 了 一 堆 数 据 ， 那 么 在 Bug 修复 之 后 ，Consumer 可 以 从 指定 的 位 置 重新 消费 。 


Low Level Consumer +) 


Low Level Consumer 主要 指 用 Kafka 提供 的 Low Level Consumer API， 通 常 称 之 为 低级 消费 
API。 使 用 Low Level Consumer (Simple Consumer) 的 主要 原因 是 ， 用 户 可 以 更 好 地 控制 数据 
的 消费 ， 比 如 ， 同 一 条 消息 进行 多 次 读 取 ; 有 和 针对 性 地 读 取 某 个 Topice 的 部 分 Partition; 从 
管理 事务 方面 ， 可 以 确保 每 条 消息 被 处 理 一 次 ， 且 仅 被 处 理 一 次 。 虽 然 Low Level Consumer 
定制 化 功能 比较 多 ， 但 是 与 Consumer Group 相 比 ，Low Level Consumer 要 求 用 户 做 大 量 的 额 
外 工作 ， 这 些 工 作 包 括 应 用 程序 需要 通过 程序 获知 每 个 Partition 的 Leader 是 谁 、 应 用 程序 需 
要 通过 程序 获知 每 个 Partition 的 Leader 是 谁 ， 以 及 Customer 客户 端 程序 必须 跟踪 offset, M 
而 确定 下 一 条 消息 被 消费 的 位 置 。 那 么 怎样 通过 Low Level Consumer (Simple Consumer) API 
来 书写 客户 端 程序 呢 ? 流程 如 下 : 

1) 查找 到 一 个 “活着 ”的 Broker， 并 且 找 出 每 个 Partition 的 Leader, 

2) 找 出 每 个 Partition 的 Follower, 

3) 定义 好 请 求 ， 该 请 求 应 该 能 描述 应 用 程序 需要 哪些 数据 。 

4) Fetch 数据 。 

5) 识别 Leader 的 变化 ， 并 对 之 做 出 必要 的 响应 。 
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在 某 些 应 用 场景 ， 客 户 程序 只 是 希望 从 Katka 读 取 数 据 ， 不 太 关心 消息 offset 的 处 理 。 
同时 也 希望 提供 一 些 语义 ,例如 同一 条 消息 只 被 某 一 个 Consumer 消费 (AHR) 或 被 所 有 
Consumer 消费 (广播 )。 因 此 ，Kafka High Level Consumer 提供 了 一 个 从 Kafka 消费 数据 的 高 
层 抽象 ， 从 而 屏蔽 掉 其 中 的 细节 并 提供 丰富 的 语义 。High Level Consumer 就 是 基于 这 种 情景 
产生 的 。 在 High Level Consumer 机 制 中 ， 消 息 消 费 是 以 Consumer Group 为 单位 的 ， 每 个 
Consumer Group 中 可 以 有 多 个 Consumer， 每 个 Consumer 是 一 个 线程 ， 同 一 Topic 的 一 条 消息 
只 能 被 同一 个 Consumer Group 内 的 一 个 Consumer 消费 ,但 多 个 Consumer Group 可 同时 消费 
这 一 消息 ，Consumer Group 对 应 的 每 个 Partition 都 有 一 个 最 新 的 offset 的 值 ， 存 储 在 Zookeeper 
上 ， 因 而 不 会 出 现 重复 消费 的 情况 ， 由 于 Consumer 的 offerset 并 不 是 实时 地 传送 到 Zookeeper 
(Kafka 从 0. 8. 2 版 本 开始 支持 将 offset 存放 在 Zookeeper 中 ， 而 以 前 offset 存放 在 专用 的 Kafka 
Topic 中 ) 的 ， 而 是 通过 配置 来 设置 更 新 周期 的 ， 所 以 Consumer 如 果 突 然 Crash， 有 可 能 会 
读 取 重复 的 信息 。 

上 面 提 及 在 High Level Consumer 机 制 中 ,消息 消 费 是 以 Consumer Group 为 单位 ， 那 么 
Consumer Group 是 如 何 定义 的 呢 ? 通过 上 面 的 分 析 Alia 道 ， High Level Consumer 将 从 某 个 Parti- 
tion 读 取 的 最 后 一 条 消息 的 offset F ZooKeeper 中 ， 这 个 offset 基于 客户 程序 提供 给 Kafka 
的 名 字 来 保存 ， 这 个 名 字 被 称 为 Consumer Group, Consumer Group 是 整个 Kafka 集群 全 局 的 , 
而 非 某 个 Topic 的 。 oy High Level Consumer 实例 都 属于 一 个 Consumer Group ， 知 不 指定 
则 属于 默认 的 Groupo XÆ Kafka 用 来 实现 一 个 Topic 消息 的 广播 (发 给 所 有 的 Consumer) 
MAR (发 给 某 一 个 Consumer) 的 手段 。 一 个 Topic 可 以 对 应 多 个 Consumer Group。 如 果 需 
要 实现 广播 ， 只 要 每 个 Consumer 有 一 个 独立 的 Group 就 可 以 了 。 要 实现 单 播 ， 只 要 所 有 的 
Consumer 在 同一 个 Group 里 。 用 Consumer Group 还 可 以 将 Consumer 进行 自由 分 组 ， 而 不 需 
要 多 次 发 送 消息 到 不 同 的 Topic。 

很 多 传统 的 Message Queue Eo \ 被 消费 完 后 将 消息 删除 ,一 方面 避免 重复 消费 ， 

男 一 方面 可 以 保证 Queue 的 长 度 ， 提高 效率 。 Kafka 并 不 删除 已 消费 的 消息 ， 为 了 实现 传统 的 
Message Queue 消息 只 被 消费 一 次 的 语义 ，Kafka 保证 每 条 消息 在 同一 个 Consumer Group 里 只 会 
被 某 一 个 Consumer 消费 。 与 传统 Message Queue 不 同 的 是 ，Kafka 还 允许 不 同 Consumer Group 
同时 消费 同一 条 消息 ， 这 一 特性 可 以 为 消息 的 多 元 化 处 理 提供 支持 。 如 图 14-1 所 示 的 集群 ， 
该 集群 由 两 个 机 器 组 成 拥有 4 个 分 区 (PO ~P3) 两 个 consumer 组 ，A HAPA consumer 组 ， 
B 组 有 4 个 。 


Consumer Group A Consumer Group B 


图 14-1 Kafka Consumer Group 特性 
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实际 上 ，Kafka 的 设计 理念 之 一 就 是 同时 提供 离线 处 理 和 实时 处 理 。 根 据 这 一 特性 ， 可 
以 使 用 Storm 这 种 实时 流 式 处 理 系统 对 消息 进行 实时 在 线 处 理 ， 同 时 使 用 Hadoop 这 种 批 处 
理 系统 进行 离线 处 理 ， 还 可 以 同时 将 数据 实时 备份 到 男 一 个 数据 中 心 ， 只 需要 保证 这 3 个 操 
作 所 使 用 的 Consumer 在 不 同 的 Consumer Group 即 可 。 

为 了 更 清楚 地 理解 Kafka Consumer Group 的 特性 ， 这 里 用 一 个 简单 的 实例 来 进行 说 明 ， 
比如 在 Kafka 集群 中 ,在 Broker 中 只 有 一 个 TopicA, 该 TopicA 有 3 个 Partition， 在 Customer 
中 ， 有 一 个 属于 groupl 的 Consumer 实例 ， 有 3 个 属于 group2 的 Consumer 实例 ， 通 过 Pro- 
ducer 向 TopicA 发 送 key 分 别 为 1、2、3 的 消息 ， 结 果 会 发 现 属于 group] 的 Consumer 收 到 了 
所 有 的 这 3 条 消息 ， 同 时 group2 中 的 3 个 Consumer 分 别 收 到 了 key 为 1、2、3 的 消息 。 
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14.2.1 Topic, Partitions D 


Topic 在 逻辑 上 可 以 被 认为 是 一 个 queue， 每 条 消费 都 必须 指定 它 的 Topiec， 可 以 简单 地 
理解 为 必须 指明 这 条 消息 要 放 进 哪个 queue 里 。 为 了 使 得 Katka 的 吞吐 率 可 以 线性 提高 ， 物 
理 上 把 Topic 分 成 一 个 或 多 个 Partition ， 每 个 Partition 在 物理 上 对 应 一 个 文件 夹 ， 该 文件 夹 下 
存储 这 个 Partition 的 所 有 消息 和 索引 文件 ， 配 置 参 数 可 以 在 config/server. properties 文件 中 指 
定 ， 其 中 的 设置 属性 为 log. dir = | Kafka 安装 目录 | /kafkaLogs。 比 如 现在 有 Topicl 和 Top- 
ic2 两 个 Topic， 其 中 Topicl 被 分 成 15 个 Partition, Topic2 被 分 成 18 个 Partition, BASE 
群 上 面 会 相应 地 生成 33 个 文件 夹 。 

Topic 中 每 个 Partition 对 应 一 个 逻辑 日 志 。 物 理 上 ， 一 个 逻辑 日 志 为 相同 大 小 的 一 组 
Segment 文件 。 每 次 生产 者 发 布 消息 到 一 个 Partition ， 代 理 就 将 消息 追加 到 最 后 一 个 Segment 
文件 中 。 当 消息 数量 达到 设 定 值 或 者 经 过 一 定 的 时 间 后 ，Segment 文件 才 真正 写 入 磁盘 中 。 
写 入 完成 后 ， 消 息 才能 被 消费 者 订阅 。Segment 文件 达到 一 定 的 大 小 后 将 不 会 再 往 该 Seg- 
ment 文件 中 写 数据 ，Broker 会 创建 新 的 Segment, 

每 个 逻辑 日 志文 件 都 是 一 个 log entries 序列 ， 每 个 log entry 包含 一 个 4 字 节 整 型 数值 
( 值 为 N+5)，1 字 节 的 "magic value" ，4 字 节 的 CRC 校 验 码 ， 其 中 checksum 采用 CRC32 算 
法 计算 ， 其 后 跟 V 个 字 节 的 消息 体 。 每 条 消息 都 有 一 个 当前 Partition 下 唯一 的 64 字 节 的 
offset， 它 指明 了 这 条 消息 的 起 始 位 置 。 磁 盘 上 存储 的 消息 格式 如 下 : 


Message Length : 4 bytes (value; 1 +4 +n) 
"Magic" Value : 1 byte 
CRC : 4 bytes 
Payload : n bytes 


这 个 log entries 并 非 由 一 个 文件 构成 ， 而 是 分 成 多 个 Segment 文件 ， 每 个 Segment 文件 以 


© 
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该 Segment 第 一 条 消息 的 offset 加 “. kafka” 后 缀 命名 。 而 Active Segment List 则 是 一 个 索引 
列表 文件 ， 它 标明 了 每 个 Segment 下 包含 的 log entry 的 offset 范围 ， 如 图 14-2 所 示 。 
因为 每 条 消息 都 被 append 到 该 Partition 中 ， 属于 顺序 写 磁 盘 ， 因 此 效率 非常 高 ， 经 验 


证 ， 顺 序 写 磁盘 效率 比 随机 写 内 存 还 要 高 ， 这 是 Kafka 高 吞吐 率 的 一 个 很 重要 的 保证 。 

对 于 传统 的 message queue 而 言 ， 一 般 会 删除 已 经 被 消费 的 消息 。 而 Kafka 集群 会 保留 
所 有 的 消息 ， 无 论 其 被 消费 与 否 。 当 然 ， 因 为 磁盘 限制 ， 不 可 能 永久 保留 所 有 数据 。 然 而 
Kafka 提供 两 种 策略 删除 旧 数 据 ， 一 种 是 基于 时 间 策 略 ， 另 一 种 是 基于 Partition 文件 大 小 策 
略 。 用 户 在 使 用 这 个 功能 时 ， 只 要 对 Kafka 配置 文件 $ KAFKA _ HOME/config/serv- 
er. properties 进行 修改 即 可 ， 比 如 实际 应 用 需求 要 Kafka 删除 一 周 前 的 数据 ， 并 每 隔 
300000ms 检查 一 次 log segments, ， 删 除 满足 条 件 的 数据 。 相 关 配 置 项 如 下 : 


log. retention. hours =168 #96 行 
log. retention. check. interval. ms =300000 #107 行 


Segment Files 
topic/34477849968.kafka 


Message 34477849968 
Message 34477850175 


Message 35551591806 
Message 35551592051 


Active Segment List 


Deletes 
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Appends topic/82796232652.kafka 


Message 34477849968 
Message 34477850175 
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| 
图 


图 14-2 Kafka Log 实现 机 制 原理 医 


这 里 要 注意 ， 因 为 Kafka 读 取 特定 消息 的 时 间 复 杂 度 为 0 (1)， 即 与 文件 大 小 无 关 ， 所 
以 这 里 删除 过 期 文件 与 提高 Kafka 性 能 无 关 。 选 择 怎样 的 删除 策略 只 与 磁盘 及 具体 的 需求 有 
关 。 另 外 ，Kafka 会 为 每 一 个 Consumer Group 保留 一 些 metadata 信息 ， 即 当前 消费 的 消息 的 
Position ， 也 即 offset， 这 个 offset 由 Consumer 控制 。 正 常情 况 下 ，Consumer 会 在 消费 完 一 条 
消息 后 递增 该 offset。 当 人 然 ，Consumer 也 可 将 offset 设置 成 一 个 较 小 的 值 ， 重 新 消费 一 些 消 
息 。 因 为 offet 由 Consumer 控制 ， 所 以 Kafka Broker 是 无 状态 的 ， 它 不 需要 标记 哪些 消息 被 
哪些 消费 过 ， 也 不 需要 通过 Broker 去 保证 同一 个 Consumer Group 只 有 一 个 Consumer 能 消费 
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某 一 条 消息 ， 因 此 也 就 不 需要 锁 机 制 ， 这 也 为 Kafka 的 高 吞吐 率 提 供 了 有 力 保 障 。 

与 传统 的 消息 系统 不 同 ，Kafka 系统 中 存储 的 消息 没有 明确 的 消息 DD。 消 息 通过 日 志 中 
的 逻辑 偏 移 量 (offset) 来 查找 信息 。 这 样 就 避免 了 维护 配套 密集 寻 址 ， 用 于 映射 消息 ID 到 
实际 消息 地 址 的 随机 存 取 索 引 结构 的 开销 。 消 息 ID 是 增 量 的 ， 但 不 连续 。 要 计算 下 一 消息 O) 
的 加， 可 以 在 其 逻辑 偏 移 的 基础 上 加 上 当前 消息 的 长 度 。 

消费 者 始终 从 特定 分 区 顺序 地 获取 消息 ， 如 果 消 费 者 知道 特定 消息 的 偏 移 量 ， 也 就 说 明 
消费 者 已 经 消费 了 之 前 的 所 有 消息 。 消 费 者 向 代理 发 出 异步 请 求 ， 准 备 字 节 缓 冲 区 用 于 消 
费 。 每 个 异步 请 求 都 包含 要 消费 的 消息 偏 移 量 。Kafka 利用 sendfile API 高 效 地 从 代理 的 日 志 
Segment 文件 中 分 发 字 节 给 消费 者 。 


| 14.2, 2 | Replication 和 Leader Election 


Kafka 提供 Partition 级 别 的 Replication 是 从 0. 8. * 开始 的 ，Replication 的 数量 参数 可 在 
$ KAFKA_HOME/config/server. properties 中 进行 配置 ]。 由 于 Replication 参数 配置 是 Topic 
级 别 的 配置 项 ， 进 行 配置 时 ， 需 要 在 指定 文件 中 添加 ， 如 添加 default. replication. factor =3 信 
息 〈 默 认 值 为 1)。 

Replication 与 Leader Election 配合 提供 了 自动 的 failover 机 制 。Replication 对 Kafka AY 7 
吐 率 是 有 一 定 影响 的 ， 但 极 大 地 增强 了 可 用 性 。 每 个 Partition 都 有 一 个 唯一 的 Leader，Pro- 
ducer 先 通过 Push 方式 将 消费 发 送 到 Broker 中 的 Leader Partition 上 ， 之 后 再 通过 异步 的 方式 
将 消息 Replication 到 Follower 上 。 一 般 情 况 下 ，Partition 的 数量 大 于 等 于 Broker 的 数量 ， 并 
且 所 有 Partition 的 Leader 均匀 分 布 在 Broker 上 。 因 此 Follower 上 的 日 志和 其 leader 上 的 完全 
一 样 ，Kafka Replication 机 制 整体 机 构图 如 图 14-3 所 示 。 
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图 14-3 Kafka Replication 机 制 整体 机 构图 


现在 已 经 知道 Kafka 的 Replication 的 大 致 情况 ,那么 Broker 中 Partition 中 的 Leader 和 
Follower 数据 是 怎样 保持 一 致 的 呢 ? 如 果 一 个 Broker 宕 机 ， 怎 样 从 其 他 的 Follower 中 选取 
Leader YE? 下 面 来 分 析 这 个 问题 。 

和 其 他 分 布 式 消息 系统 一 样 ，Kafka 也 有 一 套 机 制 来 判断 Broker 的 存活 情况 ， 目 前 主要 
通过 以 下 两 种 情况 来 判断 ， 第 一 ，Broker 是 否 保证 与 Zookeeper 通信 (通过 Zookeeper 的 
heartbeat 机 制 来 实现 ) ; 第 二 ，Follower 必须 及 时 将 Leader 的 writing 复制 过 来 ， 不 能 “落后 
太 多 ”。 这 样 ， 大 家 可 以 从 这 两 个 方面 入 手 ， 来 分 析 理 解 上 面 的 问题 。 
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在 Broker 机 制 中 ，Leader 会 追踪 “in sync” 的 节点 列表 。 如 果 一 个 Follower 宕 机 ， 或 者 
落后 太 多 ，Leader 将 把 它 从 “in syne” 列 表 中 移 除 。 这 里 所 描述 的 “落后 太 多 ” 指 Follower 
复制 的 消息 落后 于 Leader 的 条 数 超过 阔 值 ， 该 值 可 通过 replica. lag. max. messages 和 
replica. lag. time. max. ms 参数 来 配 置 ， 只 需 在 配置 文件 $ KAFKA _ HOME/ config/ serv- 
er. properties 添加 配置 参数 即 可 ， 如 下 所 示 : 


replica. lag. max. messages =4000 


replica. lag. time. max. ms = 10000 


需要 注意 的 是 ，Kafka 只 解决 “fail/recover”， 不 人 处理“Byzantine” 问题 。 一 条 消息 只 
被 “in sync” 列 表 里 的 所 有 Follower 都 从 Leader 复制 过 去 才 会 被 认为 已 提交 。 这 样 就 避免 了 
部 分 数据 被 写 进 了 Leader， 还 没 来 得 及 被 任何 Follower 复制 就 宕 机 了 ， 从 而 造成 数据 丢失 ， 
导致 Consumer 无 法 消费 这 些 丢 失 的 数据 。 对 于 Producer 而 言 ， 它 可 以 ae 对 是 否 等 待 消息 
Commit, AS VW request. required. acks 来 设置 。 这 种 机 制 确保 了 只 要 “in syn” IRA 
一 个 或 以 上 的 Follower， 一 条 被 commit 的 消息 就 不 会 丢失 。 

Kafka 的 Replication 复制 机 制 采 用 “in sync” 备 份 列表 的 方式 ， 这 种 方式 TATED 
同步 复制 和 有 异步 复制 有 些 区 别 。 事 实 上 ， 同 步 复制 要 求 “ 活 着 的 ”Follower 都 复制 完 ， 这 条 
消息 才 会 被 认为 成 功 复制 完成 ， 同 步 复制 方式 对 吞吐 率 性 能 方面 产生 了 极 大 的 影响 。 而 在 异 
步 复 制 方式 中 ，Follower 从 Leader 复制 数据 是 通过 异步 进行 的 ， 数 据 只 要 被 Leader 写 入 Log 
就 被 认为 已 经 成 功 复制 完成 ， 这 种 异步 方式 进行 数据 同步 的 缺点 是 ， 如 果 Follwer 由 于 网 络 
等 原因 都 落后 Leader, Mj Leader 这 时 突然 宕 机 ， 就 会 引起 数据 的 丢失 。 而 Kafka 采用 的 “in 
sync” 列 表 的 方式 就 很 好 地 、 均 衡 地 解决 了 同步 复制 方式 和 异步 复制 方式 遇 到 的 缺点 ， 使 得 
Follower 可 以 批量 从 Leader 中 复制 数据 ， 并 确保 了 数据 不 丢失 ， 而 且 还 具备 较 高 Eat EX, 
这 极 大 地 提高 了 Replication 复制 机 制 的 复制 性 能 。 

理解 Kafka 的 Replication 复制 机 制 后 ， 另 外 一 个 很 重要 的 问题 是 当 Leader 宕 机 后 ， 怎 样 
在 Follower 中 选举 出 新 的 Leader。 一 个 基本 原则 就 是 ， 如 果 当 前 的 Leader BAS, HN 
Leader 必须 拥有 原来 的 Leader Commit 的 所 有 消息 。 例 如 ， 如 果 Leader 在 标明 一 条 消息 被 
Commit 前 等 待 更 多 的 Follower 确认 , 这 时 突然 Leader FH 宕 机 ， 之 后 就 有 更 多 的 Follower 可 以 作 
为 新 的 Leader， 但 这 会 造成 和 吐 率 的 下 降 。Kafka 是 怎样 解决 这 个 问题 的 呢 ? 

常用 的 选举 Leader 的 方式 是 少数 服从 多 数 (Majority Vote) ， 但 Majority votes 算法 劣势 
如 下 : 比如 ， 为 了 保证 Leader Election 的 正常 进行 ， 它 所 能 容忍 的 Follower 丢失 个 数 比较 少 。 
如 果 要 容忍 丢失 1 个 Follower， 必 须要 有 3 个 以 上 的 备份 ， 如 果 要 容忍 丢失 两 个 Follower， 必 
须要 有 5 个 以 上 的 备份 。 少 数 服从 多 数 (Majority Vote) 选择 算法 的 优势 主要 体现 在 ， 系 统 
的 延迟 只 取决 于 延迟 最 少 的 几 台 服务 咒 ， 也 就 是 说 ， 要 延迟 就 取决 于 延迟 最 少 的 那个 Follo- 
wer， 而 非 最 长 的 那个 Follower。 例 如 这 里 有 2f+1 个 备份 CEFE Leader 和 Follower), ABA 
在 Commit 之 前 必须 保证 有 f + 1 个 备份 复制 完 消 息 ， 为 了 保证 正确 选 出 新 的 Leader, RIAI 
备份 数 不 能 超过 /个 ， 因 为 在 剩 下 的 任意 f+1 个 备份 里 ， 至 少 有 一 个 备份 包含 有 最 新 的 所 有 
消息 。 换 句 话 说， 在 生产 环境 中 ， 为 了 确保 较 高 的 容错 程度 ， 需 要 大 量 的 备份 ， 但 是 大 量 的 
备份 又 会 在 大 数据 量 下 导致 性 能 的 显著 下 降 ， 因此 该 算法 更 多 地 用 在 Zookeeper 这 种 共享 集 
群 配置 的 系统 中 ， 而 很 少 在 需要 存储 大 量 数据 的 系统 中 使 用 。 
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实际 上 ， 基 于 Leader 的 选举 算法 非常 多 ， 比 如 HDFS 的 HA Feature 是 基于 多 数 投票 分 
类 机 制 ， 但 是 它 的 数据 存储 并 没有 使 用 这 种 少数 服从 多 数 的 方式 。Zookeper 的 Zab 、Raft 和 
Viewstamped Replication, Mi Kafka 所 使 用 的 Leader Election 算法 更 像 微 软 的 PacificA 算法 。 

Kafka 的 Leader 选举 机 制 是 ， 在 Zookeeper 中 动态 维护 了 一 个 ISR (in -sync replicas) 集 S 
合 ， 这 个 集合 里 的 所 有 备份 都 带 上 了 Leader 信息 ， 只 有 ISR 里 的 成 员 才能 被 选 为 Leader。 在 
这 种 模式 下 ， 对 于 f+1 个 备份 ， 一 个 Kafka Topic 能 在 保证 不 丢失 已 经 Commit 的 消息 的 前 提 
下 ， 容 忍 f 个 备份 的 失败 。 在 大 多 数 使 用 场景 中 ， 这 种 模式 是 非常 有 利 的 。 事 实 上 ,为 了 容 
忍 f 个 备份 的 失败 ， 少 数 服从 多 数 Leader 选举 机 制 和 ISR 在 需要 等 待 备份 的 数量 Commit 前 
是 一 样 的 ， 但 是 ISR 需要 的 总 的 备份 的 数量 几乎 是 Majority Vote 的 一 半 。 
通过 上 面 的 分 析 ， 在 一 个 Follower 中 ， 如 果 ISR 至 少 有 一 个 备份 ， 那 么 Katka 就 可 以 确 
RAZ Commit 的 数据 不 丢失 ,但 如 果 某 一 个 Partition 的 所 有 备份 都 丢失 了 ， 那 么 就 无 法 保 
证 数据 不 丢失 了 。 解 决 这 个 问题 有 两 种 可 行 的 方案 : 

1) 等 待 ISR 集合 中 的 任 一 个 备份 “ 活 ” 过 来 ， 并 且 选 它 作为 Leader。 

2) 选择 第 一 个 “ 活 ” 过 来 的 备份 (不 一 定 在 ISR 集合 中 ) 作为 Leader。 

下 面 分 析 这 两 种 可 行 的 解决 方案 ， 对 于 第 一 种 方案 ， 等 待 ISR 集合 中 的 任何 一 个 备份 
“ 活 ” 过 来 ， 不 可 用 的 时 间 将 会 比较 长 。 当 然 ， 如 果 这 个 ISR 集合 中 的 所 有 备份 都 已 经 丢 了 ， 
这 个 partition 将 永远 不 可 用 ; 对 于 第 二 种 方案 ， 选 择 一 个 “ 活 ” 过 来 的 备份 作为 Leader， 即 使 
这 个 备份 不 在 ISR 集合 中 ， 也 不 保证 已 经 包含 了 所 有 已 Commit 的 消息 ， 即 出 现 数据 一 致 性 问 
题 ， 这 就 需要 在 可 用 性 和 一 致 性 中 进行 折 囊 ， 目 前 Kafka0. 8. * 使 用 了 第 二 种 方式 。 

Kafka 集群 需要 管理 成 百 上 千 个 Partition, Kafka 通过 round - robin 轮 间 调度 算法 来 平 
f Partition ， 从 而 避免 大 量 Partition 集中 在 少数 几 个 节点 上 。 同 时 Kafka 也 需要 平衡 Leader 
的 分 布 ， 尽 可 能 地 让 所 有 Partition 的 leader 均匀 分 布 在 不 同 的 Broker 上 。 男 一 方面 ， 优 化 
Leadership Election 的 过 程 也 是 很 重要 的 。 实 际 上 ，Kafka 选举 一 个 Broker 作为 Controller, xA 
Controller 通过 Watch Zookeeper 检测 所 有 的 Broker failure， 并 负责 为 所 有 受 影 响 的 Parition 选举 
Leader， 再 将 相应 的 Leader 调整 命令 发 送 至 受 影响 的 Broker。 这 样 做 的 好 处 是 ， 可 以 批量 地 通 
Al Leadership 的 变化 ， 从 而 使 得 选举 过 程 成 本 更 低 ， 尤 其 是 对 大 量 的 Partition 而 言 。 如 
Controller 失败 了 ,那么 幸存 的 所 有 Broker 都 会 尝试 在 Zookeeper 中 创建 /controller -> | this 
broker id} ， 如 果 创 建成 功 ， 则 该 Broker 会 成 为 Controller， 若 不 成 功 ， 则 该 broker 会 等 待 新 
Controller 的 命令 。 这 种 机 制 在 未 来 将 要 发 布 的 0.9. * 版 本 中 实现 ， 如 果 想 深入 了 解 ， 可 以 
阅读 Kafka wiki 中 的 文档 Consumer Rewrite Design。 


ri 


Consumer Rebalance } 


Consumer Rebalance 也 叫 消费 者 平衡 机 制 ， 主 要 是 指 Cusumer 消费 者 数量 改变 时 ， 就 会 
启动 该 平衡 机 制 。Kafka 保证 同一 Consumer Group 中 只 有 一 个 Consumer 会 被 消费 某 条 消息 。 
实际 上 ，Kafka 保证 的 是 稳定 状态 下 每 一 个 Consumer 实例 只 会 消费 某 个 或 多 个 特定 Partition 
的 数据 ， 而 某 个 Partition 的 数据 只 会 被 某 个 特定 的 Consumer 实例 所 消费 。 也 就 是 说 ，Kafka 
对 消息 是 以 Partition 为 单位 分 配 的 ， 而 非 以 每 一 条 消息 作为 分 配 单元 。 这 样 设计 的 劣势 是 无 
法 保证 同一 个 Consumer Group 里 的 Consumer 均匀 消费 数据 ， 优 势 是 每 个 Consumer 不 需要 和 
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大 量 的 Broker 通信 ， 减 少 通信 开销 ， 同 时 也 降低 了 分 配 难度 ， 实 现 也 更 简单 。 另 外 ， 因 为 
同一 个 Partition 里 的 数据 是 有 序 的 ， 这 种 设计 可 以 保证 每 个 Partition 里 的 数据 可 以 被 有 序 消 


费 。 如 果 某 Consumer Group 中 Consumer 数量 少 于 Partition 数量 ， 则 至 少 有 一 个 Consumer 会 
去 消费 多 个 Partition 的 数据 ， 如果 Consumer 的 数量 与 Partition 数量 相同 ， 则 正好 一 个 Con- 
sumer 消费 一 个 Partition 的 数据 ， 而 如 果 Consumer 的 数量 多 于 Partition 的 数量 ， 会 有 部 分 
Consumer 无 法 消费 该 Topic 下 任何 一 条 消息 。 

为 了 更 清楚 地 理解 上 面 几 种 情况 ,这 里 用 一 个 简单 的 实例 来 说 明 ， 在 Broker 中 有 个 一 
TopicA， 其 中 有 3 个 Partition (假设 分 别 为 0、1、2)。 在 Customer 中 ， 当 只 有 一 个 属于 
groupl 的 Consumer 实例 (假设 名 称 为 ConsumerA) 时 ， 此 时 ConsumerA 可 消费 TopicA 上 3 
个 Partition 的 数据 ; 现在 再 增加 一 个 Consumer 实例 (假设 名 称 为 ConsumerB ) ， 这 样 ， 如 果 
其 中 的 一 个 Customer (假设 是 ConsumerA) 可 以 消费 两 个 Partition (假设 是 Partition 0 和 Par- 
tition 1) 数据 ， 另 一 个 Customer (假设 是 ConsumerB) 可 以 消费 余下 的 Partition (Partition 2) 
数据 ;现在 继续 增加 一 个 Consumer 实例 (假设 名 称 为 ConsumerC ) 。 这 时 ， 每 个 Consumer 
可 消费 一 个 Partition 的 数据 ，ConsumerA 消费 partition0 ，ConsumerB 消费 partitionl, Consum- 
erC 消费 partition2。 现 在 继续 再 增加 一 个 Consumer 实例 (假设 名 称 为 ConsumerD ) ， 这 时 ， 
其 中 3 个 Consumer 可 分 别 消费 一 个 Partition 的 数据 ， 另 外 一 个 Consumer (假设 是 Consum- 
erD) 不 能 消费 topicA 的 任何 数据 。 再 做 个 逆 操 作 ， 看 看 Customer 消费 情况 ， 先 关闭 Con- 
sumerA， 其 余 3 个 Consumer 可 分 别 消费 其 中 一 个 Partition 的 数据 ， 接着 关闭 ConsumerB , 
ConsumerC 可 消费 两 个 Partition，ConsumerD 可 消费 一 个 Partition; 再 关闭 ConsumerC， 仪 存 
的 ConsumerD 可 同时 消费 topicA 的 3 个 Partition。 

理解 了 Consumer 消费 Partition 关系 之 后 ， 现 在 就 比较 容易 了 解 Consumer Rebalance 的 算 
法 了 。 下 面 大 家 来 看 看 Consumer Rebalance 算法 流程 : 

1) 将 日 标 Topic 下 的 所 有 Partirtion 排序 ， 存 于 PT。 

2) 对 某 Consumer Group 下 的 所 有 Consumer 排序 ， 存 于 CG， 第 i 个 Consumer 记 为 Ci。 

3) 向 上 取 整 ， 计 算 和 N 值 ，N = size( PT)/size( CG)。 

4) 解除 Ci 对 原来 分 配 的 Partition 的 消费 权 (i 从 0 开始) 。 

5) 将 第 ixN 到 (i+1) *N-1 个 Partition 分 配给 Ci。 

目前 ， 最 新 版 (0.8.2.1) Kafka 的 Consumer Rebalance 的 控制 策略 是 由 每 一 个 Consumer 
通过 在 Zookeeper 上 注册 Watch 完成 的 。 每 个 Consumer 被 创建 时 会 触发 Consumer Group 的 
Rebalance， 具 体 启动 流程 如 下 : 

1) High Level Consumer 启动 时 将 其 ID 注册 到 其 Consumer Group F, Æ Zookeeper 上 的 
路 径 为 /consumers/ [consumer group | /ids/ [consumer id ] 。 

2) 在 /consumers/ [consumer group | /ids 上 注册 Watch, 

3) 在 /brokers/ids 上 注册 Watch, 

4) WR Consumer 通过 Topic Filter 创建 消息 流 ， 则 它 会 同时 在 /brokers/topics 上 也 创建 
Watch, 

5) 强制 自己 在 其 Consumer Group 内 启动 Rebalance 流程 。 

在 这 种 策略 下 ， 每 一 个 Consumer 或 者 Broker 的 增加 或 者 减少 都 会 触发 Consumer Rebal- 
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ance。 因 为 每 个 Consumer 只 负责 调整 自己 所 消费 的 Partition， 为 了 保证 整个 Consumer Group 
的 一 致 性 ， 当 一 个 Consumer 触发 了 Rebalance 时 ， 该 Consumer Group 内 的 其 他 所 有 Consumer 
也 应 该 同时 触发 Rebalance。 

上 面 这 种 策略 ， 存 在 如 下 缺陷 : S 

1) Herd Effect : 任何 Broker 或 者 Consumer 的 增 减 都 会 触发 所 有 的 Consumer 的 Rebal- 
ance, 

2) Split Brain ; 每 个 Consumer 分 别 单独 通过 Zookeeper 判断 哪些 Broker 和 Consumer 宕 机 
了 ， 那 么 不 同 Consumer 在 同一 时 刻 从 Zookeeper“ 看 ”到 的 View 就 可 能 不 一 样 ， 这 是 由 Zo- 
okeeper 的 特性 决定 的 ， 这 就 会 造成 不 正确 的 Reblance 尝试 。 

3) 调整 结果 不 可 控 : 所 有 的 Consumer 都 并 不 知道 其 他 Consumer 的 Rebalance 是 否 成 
功 ， 这 可 能 会 导致 Kafka 工作 在 一 个 不 正确 的 状态 。 

Kafka 作者 正在 考虑 在 未 来 的 0.9. * 版 本 中 将 使 用 中 心 协调 器 (Coordinator) 
sumer Rewrite Design ， 具 体 思想 如 下 : 从 所 有 Consumer Group 的 子 集 选 举 出 一 个 Broker 作为 
Coordinator， 由 它 Watch Zookeeper， 从 而 判断 是 否 有 Partition 或 者 Consumer 的 增 减 ， 然 后 生 
成 Rebalance 命令 ， 并 检查 是 否 这 些 Rebalance 在 所 有 相关 的 Consumer 中 被 执行 成 功 ， 如 果 
不 成 功 则 重 试 ， 若 成 功 则 认为 此 次 Rebalance 成 功 (这 个 过 程 跟 Replication Controller 非常 
类 似 ) 。 


Con- 


消息 传送 机 制 


在 消息 队列 系统 中 ， 有 如 下 几 种 可 能 的 消息 传递 机 制 (delivery guarantee) : 

1) At most once : 消息 可 能 会 丢 ， 但 绝 不 会 重复 传输 。 

2) At least one : 消息 绝 不 会 丢 , 但 可 能 会 重复 传输 。 

3) Exactly once : 每 条 消息 肯定 会 被 传输 且 仅 传输 一 次 ， 很 多 时 候 这 是 用 户 所 想 要 的 。 

“4 Producer 向 Broker 发 送 消息 时 ， 一 旦 这 条 消息 被 Commit, Replication 机 制 的 存在 ， 
消息 就 不 会 和 于。 但 是 如 果 Producer 发 送 数据 给 Broker， 遇 到 网 络 问题 而 造成 通信 中 断 ， 那 么 
Producer 就 无 法 判断 该 条 消息 是 否 已 经 Commit。 虽 然 Kafka 无 法 确定 网 络 故障 期 间 发 生 了 什 
么 ， 但 是 Producer 可 以 生成 一 种 类 似 于 主键 的 东西 ， 在 发 生 故 障 时 ， 寺 等 性 地 重 试 ， 这 样 
就 做 到 了 Exactly once。 到 目前 为 止 (Kafka 0. 8.2. 1 版 本 ) ， 这 一 Feature 还 并 未 实现 ， 有 和希 
TATE Kafka 未 来 的 版 本 中 实现 。 目 前 ， 默 认 情 况 下 一 条 消息 从 Producer 到 Broker 确保 了 At 
least once， 可 通过 设置 Producer 异步 发 送 实现 At most once。 

接 下 来 讨论 的 是 消息 从 Broker 到 Consumer High Level 的 delivery guarantee 语义 。Con- 
sumer 在 从 Broker 读 取 消息 后 ， 可 以 选择 Commit, BREZE Zookeeper 中 保存 该 Consumer 
在 该 Partition 中 读 取 的 消息 的 offset。 该 Consumer 下 一 次 再 读 该 Partition 时 会 从 下 一 条 开始 
读 取 。 如 未 Commit， 下 一 次 读 取 的 开始 位 置 会 跟 上 一 次 Commit 之 后 的 开始 位 置 相同 。 当 然 
可 以 将 Consumer 设置 为 Autocommit， 即 Consumer 一 旦 读 到 数据 ， 立 即 自动 Commit, MRR 
讨论 这 一 读 取消 息 的 过 程 ， 那 么 Kafka 确实 确保 了 Exactly once。 但 实际 使 用 中 应 用 程序 并 非 
在 Consumer 读 取 完 数据 就 结束 了 ， 而 是 要 进行 进一步 处 理 ， 而 数据 处 理 与 Commit 的 顺序 在 
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很 大 程度 上 决定 了 消息 从 Broker 和 Consumer 的 delivery guarantee 语义 。 读 完 消 息 先 Commit 
再 处 理 。 

在 这 种 模式 下 ， 如 果 Consumer 在 Commit 后 还 没 来 得 及 人 处理 消息 就 宕 机 了 ， 下 次 重新 开 
始 工 作 后 就 无 法 读 到 刚刚 已 提交 而 未 处 理 的 消息 ， 这 就 对 应 于 At most once。 读 完 消息 先 处 
理 再 Commit， 在 这 种 模式 下 ， 如 果 在 处 理 完 消息 之 后 Commit， 之 前 Consumer 宕 机 了 ， 下 次 
重新 开始 工作 时 还 会 处 理 已 提交 未 处 理 的 消息 ， 实 际 上 该 消息 已 经 被 处 理 过 了 ， 这 就 对 应 于 
At least once。 

在 很 多 使 用 场景 下 ， 消 息 都 有 一 个 主键 ， 所 以 消息 的 处 理 往往 具有 和 客 等 性 ， 即 多 次 处 理 
这 一 条 消息 ， 与 仅 处 理 一 次 是 等 效 的 ， 那 就 可 以 认为 是 Exactly once。 毕 竟 它 不 是 Kafka 本 身 
提供 的 机 制 ， 主 键 本 身 也 并 不 能 完全 保证 操作 的 老 等 性 。 而 且 实际 上 说 delivery guarantee 语 
义 是 讨论 被 处 理 多 少 次 ， 而 非 处 理 绪 果 怎样 。 因 为 处 理 方 式 多 种 多 样 ， 大 家 不 应 该 把 处 理 过 
程 的 一 些 特性 如 是 否 具 备 窜 等 性 ， 当 成 Kafka 本 身 的 Feature。 如 果 一 定 要 做 到 Exactly 
once， 就 需要 协调 offset 和 实际 操作 的 输出 。 

精 典 的 做 法 是 引入 两 阶段 提交 ， 如 果 能 让 offset 和 操作 输入 存在 同一 个 地 方 ， 会 更 简洁 
和 通用 。 这 种 方式 可 能 更 好 ， 因 为 许多 输出 系统 可 能 不 支持 两 阶段 提交 。 比 如 ，Consumer 
拿 到 数据 后 可 能 把 数据 放 到 HDFS， 如 果 把 最 新 的 offset 和 数据 本 身 一 同 写 到 HDFS ， 那 么 就 
可 以 保证 数据 的 输出 和 offset 的 更 新 或 者 都 完成 ， 或 者 都 不 完成 ， 间 接 实现 Exactly once, H 
前 就 high level API 而 言 ，offset 是 存 于 Zookeeper 中 的 ， 无 法 存 于 HDFS 中 ， 而 low level API 
的 offset 是 由 自己 去 维护 的 ， 可 以 将 之 存 于 HDFS 中 。 

AZ, Kafka 默认 保证 At least once， 并 且 人 允许 通过 设置 Producer 异步 提交 来 实现 At 
most once, 而 Exactly once 要 求 与 外 部 存储 系统 协作 ， 幸 运 的 是 ，Kafka 提供 的 offset 可 以 非 
常 直接 、 非 常 容易 地 使 用 这 种 方式 。 


| 14.2.5 Kafka 的 可 靠 性 > 


Kafka 是 一 个 分 布 式 的 、 分 区 的 、 宛 余 的 日 志 提交 服务 系统 ， 自 从 Kafka 从 0. 8. * 开始 
提供 Partition 级 别 的 Replication Za, Kafka 的 可 靠 性 显著 提升 ，Kafka 的 Replication 复制 机 
制 既 不 是 同步 复制 ， 也 不 是 单纯 的 异步 复制 。 因 为 数据 的 传输 步骤 还 是 Producer 先 将 消息 传 
输 给 Broker 中 Leader 级 别 的 Partition ， 之 后 才 将 消息 从 Leader 级 别 的 Partition 复制 到 Follo- 
wer 级 别 的 Partition, AES A Log 后 ， 什 么 时 候 被 Commit 有 所 出 和 人， 这 就 是 刚好 所 说 的 
Kafka 的 Replication 复制 机 制 既 不 是 同步 复制 ， 也 不 是 单纯 的 异步 复制 。Kafka 在 这 里 还 映 
A “in syne” 列 表 这 个 概念 ， 来 均衡 吞吐 量 与 确保 数据 不 被 丢失 。 详 细 的 细节 请 参考 本 书 


Replications 和 Leaders 部 分 。 


14.2.6 Kafka 的 高 效 性 ) 


这 里 假设 消息 的 数据 量 特别 大 ， 同 时 确保 每 一 条 被 发 送 的 消息 至 少 可 以 被 读 一 次 ， 那么 
是 什么 原因 导致 数据 低 效 传 输 呢 ? 主要 就 是 如 下 两 个 原因 : 第 一 ， 数 据 消 息 传输 时 ， 有 过 多 
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的 网 络 请 求 ; 第 二 ， 数 据 消 息 传输 时 ， 有 过 多 的 字 节 复制 。 

Kafka 为 了 提高 效率 ， 对 这 两 个 问题 进行 了 优化 ， 比 如 围绕 消息 集合 的 概念 来 构建 Kaf- 
ka 的 API， 即 一 次 网 络 请 求 发 送 一 个 消息 集合 ， 而 不 是 每 次 只 发 一 条 消息 。 如 Kafka 中 Mes- 
sageSet 的 实现 本 身 是 一 个 非常 简单 的 API， 它 将 一 个 字 节 数组 或 者 文件 进行 直接 打包 传输 ， 
对 消息 的 处 理 并 没有 分 开 的 序列 化 和 反 序 列 化 步 又 。 由 Broker 保存 的 消息 日 志 本 身 只 是 一 
个 消息 集合 的 目录 ， 这 些 消 息 已 经 被 写 人 磁盘 。 这 种 抽象 允许 单一 一 个 字 节 可 以 被 Broker 
和 Consumer 所 分 享 。 维 护 这 样 的 通用 格式 可 以 对 大 多 数 重 要 的 操作 进行 优化 ， 持 和 久 日 志 数 
据 块 的 网 络 传输 等 。 现 在 的 UNIX 操作 系统 提供 一 种 高 优化 的 代码 路 径 将 数据 从 页 缓存 传 到 
一 个 套 接 字 (socket); Æ Linux 中 ， 这 可 以 通过 调用 sendfile 系统 来 完成 。Java 提供 了 访问 
这 个 系统 调用 的 方法 . FileChannel. transferTo。 

为 了 理解 sendfile 的 影响 ， 需 要 理解 一 般 的 将 数据 从 文件 传 到 套 接 字 的 路 径 : 

1) 操作 系统 将 数据 从 磁盘 读 到 内 核 空间 的 页 缓存 中 。 

2) 应 用 将 数据 从 内 核 空 间 读 到 用 户 空间 的 缓存 中 。 

3) 应 用 将 数据 写 回 内 存 空 间 的 套 接 字 缓 存 中 。 

4) 操作 系统 将 数据 从 套 接 字 缓 存 写 到 网 卡 缓存 中 ， 以 便 将 数据 通过 网 络 发 送出 去 。 

这 样 做 明显 是 低 效 的 ， 这 里 有 4 次 复制 、 两 次 系统 调用 。 如 果 使 用 sendfile， 再 次 复制 
可 以 被 避免 : 允许 操作 系统 将 数据 直接 从 页 缓存 发 送 到 网 络 上 。 所 以 在 这 个 优化 的 路 径 中 ， 
只 有 最 后 一 步 将 数据 复制 到 网 卡 缓存 中 是 需要 的 。 

对 于 期 望 一 个 主题 上 有 多 个 消费 者 是 一 种 常见 的 应 用 场景 。 利 用 上 述 的 零 复 制 ， 数 据 只 
被 复制 到 页 缓存 一 次 ， 然 后 就 可 以 在 每 次 消费 时 被 重复 利用 ， 而 不 需要 将 数据 存在 内 存 中 ， 
然后 在 每 次 读 的 时 候 复制 到 内 核 空间 中 ， 这 使 得 消息 消费 速度 可 以 达到 网 络 连接 的 速度 。 这 
种 机 制 大 大 提高 了 Kafka 的 数据 传输 效率 。 


Kafka 即将 发 布 版 本 核心 组 件 及 特性 剖析 


下 下 ”重新 设计 的 Consumer ) 


最 新 版 (0.8.2.1) Kafka 的 Consumer Rebalance 控制 策略 ， 用 在 基于 Kafka 目前 的 Con- 
sumer 结构 中 ， 存 在 很 多 缺陷 ， 原 理 已 经 在 Consumer Rebalance 控制 策略 中 进行 了 详细 的 分 
析 ， 这 就 迫使 Kafka 开发 者 实现 另外 一 种 解决 方案 ， 来 解决 上 面 的 缺陷 ， 这 就 是 Consumer 
重新 设计 的 原因 ，Kafka 开发 者 计划 在 未 来 的 0.9. * 中 实现 该 功能 ， 其 核心 思想 是 用 中 心 协 
调 右 (Coordinator) ， 本 节 将 详细 阐述 重新 设计 的 Consumer, 

新 的 Cosumer 从 很 多 地 方 进行 了 修改 ， 如 简化 消费 者 客户 端 、 中 心 调度 右 (Coordinator) , 
允许 手工 管理 offset, Rebalance 后 触发 用 户 指定 的 回调 、 非 阻塞 式 Consumer API 和 等。 下面 对 
这 些 新 的 设计 功能 进行 总 结 。 

简化 消费 者 客户 端 : 部 分 用 户 希 望 开 发 和 使 用 non - java 的 客户 端 。 现 阶段 使 用 non - 
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java 开发 SimpleConsumer 比较 方便 ， 但 想 开 发 High Level Consumer 并 不 容易 。 因 为 High Lev- 
el Consumer 需要 实现 一 些 复 杂 但 必 不 可 少 的 失败 探测 和 Rebalance。 如 果 能 将 消费 者 客户 端 
更 精简 ， 使 依赖 最 小 化 ， 将 会 极 大 地 方便 non- java 用 户 实 现 自己 的 Consumer, 

中 心 调度 器 (Coordinator) : 由 于 当前 版 本 的 High Level Consumer 存在 Herd Effect 和 
Split Brain 等 问题 。 如 果 将 失败 探测 和 Rebalance 的 逻辑 放 到 一 个 高 可 用 的 中 心 Coordinator, 
那么 这 两 个 问题 即 可 解决 。 同 时 还 可 大 大 减少 Zookeeper 的 负载 ， 有 利于 Kafka Broker 的 水 
平 扩展 。 

允许 手工 管理 offset : 一 些 系统 希望 以 特定 的 时 间 间 隔 在 自 定 义 的 数据 库 中 管理 Offset。 
这 就 要 求 Consumer 能 获取 到 每 条 消息 的 Metadata， 例 如 Topic, Partition, 、Offset， 同 时 还 需 
要 在 Consumer 启动 时 得 到 每 个 Partition 的 Offset。 实 现 这 些 功 能 ， 需 要 提供 新 的 Consumer 
API。 同 时 有 个 问题 不 得 不 考虑 ， 即 是 否 允 许 Consumer 手工 管理 部 分 Topic 的 Offset, MLE 
Kafka 自动 通过 Zookeeper 管理 其 他 Topic 的 Offset。 一 个 可 能 的 选项 是 让 每 个 Consumer 只 能 
选取 一 种 Offset 管理 机 制 ， 这 可 以 极 大 地 简化 Consumer API 的 设计 和 实现 。 

Rebalance 后 触发 用 户 指 定 的 回调 : 一 些 应 用 可 能 会 在 内 存 中 为 每 个 Partition 维护 一 些 
状态 ，Rebalance 时 ， 它 们 可 能 需要 将 该 状态 持久 化 。 因 此 和 希望 支持 用 户 实现 并 指定 一 些 可 
插 拔 的 并 在 Rebalance 时 触发 的 回调 。 也 就 是 说 ， 如 果 用 户 希 望 使 用 Kafka 提供 的 自动 Offset 
管理 ， 则 需要 Kafka 提供 该 回调 机 制 。 

非 阻塞 式 Consumer API : 源 于 那些 实现 高 层 流 处 理 操 作 ， 如 filter by, group by, join 等 
系统 。 现 阶段 的 阻塞 式 Consumer 几乎 不 可 能 实现 Join 操作 。 


Coordinator Rebalance ) 


该 功能 在 未 来 的 0. 9. * 版 本 才 展 现 ， 这 里 基于 Wiki 社区 的 文档 进行 一 些 介绍 ， 通 过 
High Level Consumer Rebalance 分 析 可 以 知道 ，Rebalance 成 功 的 结果 是 ， 订 阅 的 所 有 Topic 的 
每 一 个 Partition 将 会 被 Consumer Group 内 的 一 个 (有 且 仅 有 一 个 ) Consumer 拥有 。 每 一 个 
Broker 将 被 选举 为 某 些 Consumer Group 的 Coordinator。 某 个 Cosnumer Group 的 Coordinator 负责 
在 该 Consumer Group 的 成 员 变 化 或 者 所 订阅 的 Topic 的 Partititon 变化 时 协调 Rebalance 操作 。 

(1) Consumer 执行 机 制 

1) Consumer 启动 时 ， 先 向 Broker 列表 中 的 任意 一 个 Broker AIX ConsumerMetadataRe- 
quest， 并 通过 ConsumerMetadataResponse 获取 它 所 在 Group 的 Coordinator 信息 。 

2) Consumer 连接 到 Coordinator 并 发 送 HeartbeatRequest， 如 果 返 回 的 HeartbeatResponse 
没有 任何 错误 码 ，Consumer 继续 fetch 数据 。 和 若 其 中 包含 llegalCeneration 错误 码 ， 即 说 明 
Coordinator 已 经 发 起 了 Rebalance 操作 ， 此 时 Consumer 停止 fetch 数据 ，commit offset， 并 发 
送 JoinGroupRequest 给 它 的 Coordinator， 并 在 JoinGroupResponse 中 获得 它 应 该 拥有 的 所 有 
Partition 列表 和 它 所 属 的 Group 的 新 的 Generation ID。 此 时 Rebalance 完成 ，Consumer 开始 
fetch 数据 。 

Consumer 状态 机 图 如 图 14-4 所 示 ， 下 面 对 这 些 参数 进行 详细 解析 。 
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HBResponse retums IIIegalGeneration error, 
user invokes subscribe() 


JoinRequest 
with empty 
startup consumer id 


Conn loss, HBResponse retums 
NotCoordinatorForGroup error, 
HBResponsé 
retums 
IlegalGeneration 
error 


Part of a Ce 
group Ce 


until ConsumerMetadataResponse 
retums no error code or 

HBResponse retums some other 
error code 


Start up & 


discover co- 
eu 


until ConsurnerMetadataResponse 
retums no error code 


Stopped 
consumption 


HBResponse 
retums no error 


JoinRequest with consumer id 


JoinGroupResponse returned UnknownConsumerld error 


图 14-4 Consumer 状态 机 工作 流程 图 


Down : Consumer 停止 工作 。 

Start up & discover coordinator ; Consumer 检测 其 所 在 Group 的 Coordinator。 一旦 它 检 测 
到 Coordinator， 即 向 其 发 送 JoinGroupRequest。 

Partof a group : 在 该 状态 下 ，Consumer 已 经 是 该 Group 的 成 员 ， 并 周期 性 地 发 送 Heart- 
beatRequest。 如 HeartbeatResponse 包含 llegalCeneration 错误 码 ， 则 转换 到 Stopped Consump- 
tion 状态 。 若 连接 丢失 ，HeartbeatResponse 包含 NotCoordinatorForGroup 错误 码 ， 则 转换 到 
Rediscover coordinator 状态 。 

Rediscover coordinator ; 在 该 状态 下 ，Consumer 不 停止 消费 ， 而 是 尝试 通过 发 送 Consum- 
erMetadataRequest 来 探测 新 的 Coordinator， 并 且 等 待 直到 获得 无 错误 码 的 响应 。 

Stopped consumption : 在 该 状态 下 Consumer 停止 消费 并 提交 offset， 直 到 它 再 次 加 入 
Groupo 

(2) Consumer 故障 检测 机 制 

Consumer 成 功 加 入 Group 后 ，Consumer 和 相应 的 Coordinator 同时 开始 故障 探测 程序 。 
Consumer 向 Coordinator 发 起 周期 性 的 Heartbeat (HeartbeatRequest) 并 等 待 响 应 ， 该 周期 为 
session. timeout. ms/heartbeat. frequency, 4%; Consumer 在 session. timeout. ms 内 未 收 到 Heart- 
beatResponse， 或 者 发 现 相 应 的 Socket channel HIF, E BIA Coordinator 已 宕 机 并 启动 Co- 
ordinator 探测 程序 。 若 Coordinator 在 session. timeout. ms 内 没有 收 到 一 次 HeartbeatRequest , 
则 它 将 该 Consumer 标记 为 宕 机 状态 并 为 其 所 在 Group 触发 一 次 Rebalance #2/E, Coordinator 
Failover 过 程 中 ，Consumer 可 能 会 在 新 的 Coordinator 完成 Failover 过 程 之 前 或 之 后 发 现 新 的 
Coordinator， 并 向 其 发 送 HeatbeatRequest。 对 于 后 者 ， 新 的 Cooodinator 可 能 拒绝 该 请 求 ， 致 
使 该 Consumer 重新 探测 Coordinator 并 发 起 新 的 连接 请 求 。 如 果 该 Consumer 向 新 的 Coordina- 
tor 发 送 连接 请 求 太 晚 ， 新 的 Coordinator 可 能 已 经 在 此 之 前 将 其 标记 为 宕 机 状态 而 将 之 视 为 
新 加 入 的 Consumer 并 触发 一 次 Rebalance 操作 。 

(3) CoordinatorRebalance cee 

D 在 稳定 状态 下 Coordinator 通过 上 述 故 障 探 测 机 制 跟踪 其 所 管理 的 每 个 Group 下 的 每 
个 Consumer 的 健康 状态 。 
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D 刚 启动 或 者 选举 完成 后 ，Coordinator 从 Zookeeper 读 取 它 所 管理 的 Group 列表 及 这 些 
Group 的 成 员 列 表 。 如 果 没 有 获取 到 Group 成 员 信 息 ， 它 不 会 做 任何 事情 ， 直 到 某 个 Group 
中 有 成 员 注 册 进来 。 

© 在 Coordinator 完成 加 载 其 管理 的 Group 列表 及 其 相应 的 成 员 信息 之 前 ，Coordinator 将 
为 HeartbeatRequest OffsetCommitRequest 和 JoinGroupRequests 返回 CoordinatorStartupNotCom- 
plete 错误 码 。 此 时 ，Consumer 会 重新 发 送 请 求 。 

(4) Coordinator 会 跟踪 被 其 所 管理 的 任何 Consumer Group 注册 的 Topic 的 Partition 的 变化 ， 
并 为 该 变化 触发 Rebalance 操作 。 创 建新 的 Topic 也 可 能 触发 Rebalance， 因 为 Consumer 可 以 
在 Topic 被 创建 之 前 就 已 经 订阅 。 

Coordinator 状态 机 图 如 图 14-5 所 示 ， 下 面 对 这 些 参数 进行 详细 解析 。 


no hearbeat from some consumer for 
session.timeout.ms, : 
JoinGroupRequest with known consumer id, received 
y JoinGroupRequest with no consumer id, 
startup or election zk load zh watch for partition changes 


JoinGroupRequests 
from all current 
consumers 


Prepare for Rebalancing 
rebalance 


did not receive 
JoinGroupRequests 
from some of the 
current consumers for 
session.timeout.ms 


died or demoted 


heartbeats 


died or demoted 


HeartbeatRequests 
from all current 
consumers with the 
new gen id 


图 14-5 Coordinator 状态 机 工作 流程 图 


Down : Coordinator 不 再 担任 之 前 负责 的 Consumer Group 的 Coordinator。 

Catch up : 在 该 状态 下 ，Coordinator 竞选 成 功 ， 但 还 未 能 做 好 服务 相应 请 求 的 准备 。 

Ready : 在 该 状态 下 ， 新 竞选 出 来 的 Coordinator 已 经 完成 从 Zookeeper 中 加 载 它 所 负责 
管理 的 所 有 Group 的 Metadata ， 并 可 开始 接收 相应 的 请 求 。 

Prepare for rebalance : 在 该 状态 下 ，Coordinator 在 所 有 HeartbeatResponse 中 返回 Tegal- 
Generation 错误 码 ， 并 等 待 所 有 Consumer 向 其 发 送 JoinGroupRequest 后 转 到 Rebalancing 
状态 。 

Rebalancing : 在 该 状态 下 ，Coordinator 已 经 收 到 了 JoinGroupRequest 请 求 ， 并 增加 其 
Group Generation ID ， 分 配 Consumer ID ， 分 配 Partition, Rebalance 成 功 后 ， 它 会 等 待 接收 包 
含 新 的 Consumer Generation ID 的 HeartbeatRequest ， 并 转 至 Ready 状态 。 

(4) Coordinator Failover 机 制 
通过 上 面 的 分 析 ， 是 否 对 Rebalance 执行 步 又 有 全 面 的 了 解 呢 ? 这 里 还 是 先 列 举 出 Re- 
balance 操作 的 几 个 阶段 ， 之 后 再 看 Rebalance 不 同 阶段 中 Coordinator 的 Failover 处 理 方式 。 
Rebalance 执行 步骤 如 下 : 

Q) Topic/Partition 的 改变 或 者 新 Consumer 的 加 入 或 者 已 有 Consumer 停止 ， 触 发 Coordi- 
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nator 注册 在 Zookeeper 上 的 watch, Coordinator 收 到 通知 准 备 发 起 Rebalance 操作 。 

@ Coordinator 通过 在 HeartbeatResponse 中 返回 IllegalGeneration 错误 码 发 起 Rebalance 
操作 。 

@) Consumer KIX JoinGroupRequest , > 

(4) Coordinator 在 Zookeeper 中 增加 Group 的 Generation ID 并 将 新 的 Partition 分 配 情况 写 
À Zookeeper, 

©) Coordinator KIX JoinGroupResponse。 

在 Rebalance 执行 上 面 几 个 步骤 中 ，Coordinator 都 可 能 出 现 故 障 。 那 么 ，Coordinator 怎 
样 解决 这 些 可 能 的 故障 呢 ? 下 面 给 出 Rebalance 不 同 阶段 中 Coordinator 的 Failover 处 理 方式 。 

1) 如 果 Coordinator 的 故障 发 生 在 第 一 阶段 (步骤 中) ， 即 它 收 到 Notification 并 未 及 时 做 
出 响应 ， 则 新 的 Coordinator 将 从 Zookeeper 读 取 Group 的 Metadata， 包 含 这 些 Group 订阅 的 
Topic 列表 与 之 前 的 Partition 分 配 。 如 果 某 个 Group 所 订阅 的 Topic 数 或 者 某 个 Topic 的 Parti- 
tion 数 与 之 前 的 Partition 分 配 不 一 致 ， 或 者 某 个 Group 连接 到 新 的 Coordinator 的 Consumer 数 
与 之 前 Partition 分 配 中 的 不 一 致 ， 新 的 Coordinator 会 发 起 Rebalance 操作 。 

2) 如 果 失 败 发 生 在 第 二 阶段 (步骤 加) ， 它 可 能 对 部 分 而 非 全 部 Consumer 发 出 带 错误 
人 码 的 HeartbeatResponse。 与 第 一 种 情况 一 样 ， 新 的 Coordinator 会 检测 Rebalance 并 发 起 一 次 
Rebalance 操作 。 如 果 Rebalance 是 由 Consumer 的 失败 所 触发 的 ， 并 且 Cosnumer 在 Coordina- 
tor 的 Failover 完成 前 恢复 ， 新 的 Coordinator 不 会 为 此 发 起 新 的 Rebalance 操作 。 

3) 如 果 Failure 发 生 在 第 三 阶段 PRO), ， 新 的 Coordinator 可 能 只 收 到 部 分 而 非 全 部 
Consumer 的 JoinGroupRequest。Failover 完成 后 ， 它 可 能 收 到 部 分 Consumer 的 HeartRequest KI 
外 部 分 Consumer 的 JoinGroupRequest。 与 第 一 种 情况 一 样 ， 它 将 发 起 新 一 轮 的 Rebalance 操作 。 

4) 如 果 Failure 发 生 在 第 四 阶段 (步骤 由) ， 即 将 新 的 Group Generation ID 和 Group 成 员 
信息 写 人 Zookeeper 后 ， 那 么 新 的 Generation ID 和 Group 成 员 信息 以 一 个 原子 操作 一 次 性 写 
人 Zookeeper, Failover 完成 后 ，Consumer 会 发 送 HeartbeatRequest 给 新 的 Coordinator， 并 包 
含 旧 的 Generation ID 。 此 时 新 的 Coordinator 通过 在 HeartbeatResponse 中 返回 TllegalGeneration 
错误 码 发 起 新 的 一 轮 Rebalance。 这 也 解释 了 为 什么 每 次 HeartbeatRequest 中 都 需要 包含 Gen- 
eration ID 和 Consumer ID。 

5) 如 果 Failure 发 生 在 第 五 阶段 (SRO), ， 旧 的 Coordinator 可 能 只 向 Group 中 的 部 分 
Consumer 发 送 了 JoinGroupResponse。 收 到 JoinGroupResponse 的 Consumer 时 ， 发 现在 继续 向 
已 经 失效 的 Coordinator 发 送 HeartbeatRequest 或 者 提交 Offset 时 会 检测 到 它 已 经 失败 。 此 时 ， 
它 将 检测 新 的 Coordinator 并 向 其 发 送 带 有 新 的 Generation ID 的 HeartbeatRequest, 而 未 收 到 
JoinGroupResponse 的 Consumer 将 检测 新 的 Coordinator Ff m AIK JoinGroupRequest， 这 将 促 
使 新 的 Coordinator 发 起 新 一 轮 的 Rebalance。 

本 节 从 Consumer 重新 设计 后 的 Consumer 执行 机 制 、Consumer 状态 机 、Consumer 故障 检 
测 机 制 Coordinator Rebalance 执行 机 制 、Coordinator 状态 机 、Coordinator Failover 机 制 人 手 ， 
对 中 心 协 调 絮 (Coordinator) 的 Rebalance 做 了 详细 的 分 析 和 总 结 ， 这 部 分 内 容 比 较 复杂 ， 
需要 仔细 研读 。 读 者 也 可 以 结合 Kafka wiki 社区 深入 了 解 这 些 功能 。 


14.4 小 结 
本 章 详细 讲解 了 Kafka 的 核心 组 件 及 核心 特征 ， 主 要 包括 Kafka 如 何 接 收 消息 、 如 何 处 
并 对 Kafka 本 身 的 一 些 缺 点 进 


理 消息 、 如 何 将 消息 进行 容错 、 如 何 发 送 消息 、 如 何 通过 调度 机 制 实现 节点 上 的 数据 平衡 ， 
fi 
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自己 的 认识 ， 从 设计 架构 上 、 数 据 处 理 上 进行 全 面 思索 ， 也 可 以 
Kafka 的 精髓 ， 还 可 以 结合 


| 析 。 通 过 对 Kafka 的 核心 组 件 的 深入 理解 ， 大 家 可 以 
结合 
自己 也 可 以 试 着 针对 实际 应 用 场景 设计 和 开发 更 优异 的 消息 队列 系统 。 


结合 
结合 Kafka 的 源 代码 来 理解 
结合 实际 应 用 场景 ,灵活 运用 Kafka 这 些 独特 的 特征 和 组 件 。 当 然 ， 
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ASHE Kafka 应 用 实践 V 


Kafka 是 一 个 高 性 能 跨 语 言 分 布 式 发 布 /订阅 消息 队列 系统 ， 前 面 两 章 已 对 Kafka 的 设计 
理念 、 基 本 架 ~~ Kafka 核心 组 件 和 核心 特 ; 竹 进 行 了 详细 齐 析 。 相信 读者 已 经 对 Kafka 有 了 
全 面 深 入 的 了 解 ， 应 该 想 知道 怎样 搭建 Katka 集群 、 怎 样 将 Katka 集群 用 于 自己 的 数据 流 分 
析 平 台中 、 怎 样 编写 Kafka 程序 来 解决 实际 的 业务 逻辑 问题 了 。 本 章 就 从 这 些 方面 和 人手， 帮 
助 读者 成 为 Kafka 理论 与 实战 高 手 。 本 章 分 为 如 下 几 个 部 分 : Kafka 开发 环境 的 配置 与 Kafka 
集群 的 部 署 、 构 建 Katka 数据 流 平 台 、Kafka 客户 端 开 发 、Spark 整合 Kafka 的 实战 实例 
分 析 。 


| Section | 


[EI Kafka 开发 环境 搭建 及 运行 环境 部 署 


Kafka 开发 环境 配置 » 


Kafka 是 用 Scala 语言 编写 ， 运行 在 JVM 上 的 ， 为 此 大 家 在 配置 开发 环境 时 ， 要 保证 机 
art Java 基础 开发 包 JDK 和 Scala 语言 库 。 开 发 Java 或 Scala 比较 好 用 的 IDE 有 Eclipse、 
IntelliJ IDEA 等 ， 推 荐 使 用 IntelliJ IDEA 开发 Scala 应 用 程序 ， 用 Maven 工具 来 进行 项 目 管 
H, E Kafka 开发 环境 需要 的 软件 及 下 载 方式 如 表 15-1 所 示 。 


表 15-1 搭建 Kafka 开发 环境 所 需要 的 软件 及 下 载 地 址 


软 件 下 载 网 址 推荐 版 本 
JDK http; //www. oracle. com/ technetwork/java/ javase/ downloads/index. html 1.7 以 上 
Eclipse http; //scala - ide. org/download/sdk. html 4.2.0 
Maven http; //maven. apache. org/download. cgi 3.0.2 WE 
Scala http: //www. scala — lang. org/download/ 2.11. * 
Kafka http; //kafka. apache. org/downloads. html 0.8.2. 1 


注意 : 开发 环境 在 windows 7 64 位 操作 系统 操作 中 ， 相 应 的 软件 也 使 用 64 位 的 。 

有 了 上 面 的 基本 软件 环境 ， 大 家 就 可 以 基于 Kafka 进行 程序 开发 了 ， 构 建 基 于 Kafka 的 
开发 项 目 有 如 下 几 种 方法 : 第 一 ， 通 过 Scala IDE 直接 创建 项 目 ; 第 二 ,通过 项 目 管理 工 
H Maven 来 构建 项 目 。 这 两 种 方法 各 有 优 缺 点 ， 用 Maven 构建 项 目 ， 只 要 配置 正确 的 
Pom. xml 文件 、 相 应 的 依赖 库 即 可 ，Maven 通过 二 网 络 自动 下 载 配置 中 的 第 三 方 依赖 库 。 直 接 
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用 Scala IDE 构建 项 目的 话 ， 需 要 将 Kafka 依赖 的 JAR E, 手动 复制 到 自己 创建 的 项 目 中 ， 
大 家 可 以 选择 其 中 的 一 种 方式 来 构建 基于 Kafka 的 开发 项 目 ， 本 节 对 这 两 种 方法 进行 详细 
HR, 

1. 方法 一 : 通过 Scala IDE 直接 创建 项 目 

1) 打开 Scala IDE 集成 开发 环境 。 

2) 创建 Scala 项 目 。 

在 Eclipse 中 ， 依 次 选择 File 一 New 一 Scala Project 一 填写 Project name—Finsh 命令 。 

3) 导入 Katka 第 三 方 依赖 包 。 

在 刚 创 建 的 项 目 中 ， 单 击 鼠 标 右键 ， 创 建 一 个 文件 夹 〈 随 便 命名 ， 这 里 命名 为 jp) ， 解 
压缩 Kafka 官方 网 站 下 载 的 (kafka_2. 11 -0. 8. 2. 1. tgz) ， 将 安装 目录 \kafka_2. 11 -0.8.2.1 
\libs 下 的 所 有 JAR 包 ， 复 制 到 在 项 目 中 创建 的 lib 文件 夹 下 。 如 图 15-1 所 示 。 


a Œ Kafka_Client_Develop1 
E src 
> BA Scala Library [2.11.2] 
> a JRE System Library UavaSE-1.7] 
4@ lib 
(a) jopt-simple-3.2jar 
ji) kafka_2.11-0.8.2.1-javadocjar 
图 | kafka_2.11-0.8.2.1-scaladocjar 
图 kafka_2.11-0.8.2.1-sourcesjar 
i) kafka_2.11-0.8.2.1-testjar 
图 kafka_2.11-0.8.2.1 jar 
ja) kafka-clients-0.8.2.1jar 
ei) log4j-1.2.16jar 
图 lz4-1.2.0jar 
图 metrics-core-2.2.0jar 
图 | scala-library-2.11.5jar 
(a) scala-parser-combinators_2.11-1.0.2,jar 
je) scala-xml_2.11-1.0.2,jar 
图 slf4j-api-1.7.6jar 
图 slf4j-log4j12-1.6.1jar 
图 snappy-java-1.1.1.6jar 
ja) zkclient-0.3jar 
ja) zookeeper-3.4.6,jar 


图 15-1 将 Kafka 依赖 的 开发 包 复制 到 项 目 


4) 导入 依赖 的 Kafka JAR 包 

在 Eclipse 中 ， 依 次 执行 如 下 操作 : 选择 刚 创建 的 项 目 ， 单 击 鼠 标 右键 ， 选 择 Build Path 一 
Configure Build Path 命令 ， 单 击 Libraries， 选 择 Add JAR， 找 到 刚 创建 的 项 目 及 lib 文件 夹 ， 
选择 lib 下 的 全 部 JAR 包 ， 两 次 单 击 OK 按钮 。 相 关 的 截图 如 图 15-2 和 图 15-3 所 示 。 
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kafka_2.11-0.8.2.1-scaladocjar| 


Add External Class Folder... 
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Migrate JAR File... 


i| kafka_2. 

©) kafka_2.11-0.8.2.1jar| 

We) kafka-clients-0.8.2.1jar| 
(i) logqj-1.2.16jar| 


图 15-2 将 Kafka 依赖 的 开发 包 添加 到 PATH 中 


4 YS Kafka_Client Develop1 
Z src 


> BA Scala Library [2.11.2] 

> aA JRE System Library Boasa ~~ 
jopt-simple-3.2,jar 
kafka_2.11-0.8.2.1-javadocjar 
kafka_2.11-0.8.2.1-scaladoc,jar 
kafka_2.11-0.8.2.1-sourcesjar 
kafka_2.11-0.8.2.1-testjar 
kafka_2.11-0.8.2.1jar 
kafka-clients-0.8.2.Ljar 
log4j-1.2,.16jar 
[z4-1.2.0,jar 
metrics-core-2.2.0,jar 


scala-library-2.11.5,jar 
scala-parser-combinators_2.11-1.0.2jar 
scala-xml_2.11-1.0.2,jar 
slf4j-api-L.7.6jar 

slf4j-log4j12-L.6.1jar 
snappy-java-L.1.1.6.jar 


zkclient-0.3,jar 


El ED Ed Ey El Es EY ED Ey El EE) EE a A E E 


zookeeper-3.4.6jar 


r 


b &li 


图 15-3 将 Kafka 依赖 的 开发 包 添 加 到 PATH 中 后 项 目 依赖 库 展 现 


通过 上 面 几 个 步骤 的 操作 ， 就 可 以 在 该 项 目 中 开发 基于 Kafka 的 Producer 和 Consumer 
程序 了 。 

2. 方法 二 : 通过 项 目 管 理工 具 Maven 来 构建 项 目 

1) 打开 Scala IDE 集成 开发 环境 。 

2) 创建 Maven 项 目 。 

在 Eclipse 中 ， 执 行 如 下 操作 : 选择 Pile 一 New 一 Other 命令 ， 选 择 Maven Project， 单 击 
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Next 按钮 ， 填 写 Maven project Configure， 包 括 : Artifact Group Id Artifact Id, Version, Pack- 
aging, Finish 按钮 。 

3) 修改 刚 创建 的 Maven 工程 的 pom. xml 文件 。 

打开 pom. xml 文件 ， 填 写 相 应 的 Katka 依赖 包 ， 然 后 保存 (快捷 键 是 Cul +S), UA 
自动 从 网 络 上 下 载 相应 的 依赖 JAR 包 (下 载 速度 非常 慢 ， 要 等 一 段 时 间 ) 。 

比如 ， 填 的 是 Kafka2. 10 -0. 8. 2. 1 的 依赖 项 ， 如 下 所 示 : 


< dependency > 

< groupld > org. apache. kafka < /groupId > 
<artifactld > kafka_2. 10 < /artifactld > 
< version > 0. 8. 2. 1 </version > 


</dependency > 


TER: 在 填写 kafka 依赖 参数 时 ， 可 以 参考 官网 ， 也 可 以 参考 如 下 网 址 : http: //mvnre- 
pository. com/ 。 

4) 用 Maven 构建 Kafka 的 开发 工程 ， 创 建 完 成 后 ， 包 的 组 织 结构 如 图 15 -4 所 示 。 修 
改 pom. xml 文件 之 后 ， 相 关 的 依赖 包 也 加 入 到 依赖 库 中 ，Kafka_Client_Develop2 项 目 组 织 结 
构 如 图 15 -5 所 示 。 


4 ie} Kafka_Client_Develop2 
G src/main/java 
( src/main/resources 
G3 src/test/java 
E src/test/resources 
> Œ JRE System Library [jre7] 
> @ src 
(& target 
[m] pom.xml 


Al 15-4 修改 pom. xml 文件 前 ，Kafka_Client_Develop2 项 目 组 织 结构 


通过 上 面 两 种 方法 对 Kafka 开发 环境 进行 配置 ， 就 可 以 基于 自己 的 业务 逻辑 ， 灵 活 地 开 
发 Kafka 的 Producer 和 Consumer 应 用 程序 了 。 


iS 4 Kafka 运行 环境 安装 与 部 署 D 


本 节 将 详细 讲解 Kafka 的 安装 与 部 署 。 通 过 前 面 两 章 的 讲解 ， 相 信 读 者 已 经 知道 ，Kafka 
中 消息 的 元 数据 信息 及 状态 是 通过 Zookeeper 进行 存储 和 监控 的 ， 因 此 在 部 署 Kafka 的 情况 
下 ， 先 部 署 Zookeeper 集群 。 本 部 分 内 容 将 Kafka 的 运行 环境 部 署 到 Ubuntu12. 04 64 位 的 操 
作 系 统 上 ， 安 装 Kafka 准备 的 软件 还 有 ，jJava 基础 开发 包 JDK, Scala 语言 库 、Zookeeper - 
3. 4.6、kafka_ 2. 11 -0. 8.2. 1. tgz。 部 署 Kafka 运行 环境 各 软件 的 版 本 信息 如 表 15-2 所 示 。 
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4 i Kafka_Client_Develop2 
( src/main/java 
( src/main/resources 
G src/test/java 


E src/test/resources 


4 BA Maven Dependencies 

> kafka_2.10-0.8.2.1 jar - C:\Users\Administr 
metrics-core-2.2.0,jar - C:\Users\Administi 
slf4j-api-1.7.2,jar - C:\Users\Administrator 
scala-library-2.10.4,jar - C:\Users\Adminis 
kafka-clients-0.8.2.1jar - C:\Users\Admini: 
Iz4-1.2.0jar - C:\Users\Administrator\.m2\ 
snappy-java-1.1.1.6.jar - C:\Users\Adminis 
zookeeper-3.4.6,jar - C:\Users\Administra 
slf4j-log4j12-1.6.1 jar - C:\Users\Administr 
jline-0.9.94,jar - C:\Users\Administrator\.1r 
netty-3.7.0.Final.jar - C:\Users\Administrat: 
jopt-simple-3.2jar - C:\Users\Administrate 
zkclient-0.3.jar - C:\Users\Administrator\.r 
log4j-1.2.15.jar - C:\Users\Administrator\,1 

D junit-4.11Jar - C:\Users\Administrator\.m2 

D hamcrest-core-1.3.jar - C:\Users\Administ 
> gah JRE System Library [jre7] 
b @ src 

& target 
[m] pom.xml 
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图 15-5 修改 pom. xml 文件 后 ，Kafka_Client_Develop2 项 目 组 织 结构 (Kafka 依赖 包 已 添加 ) 


表 15-2 HÆ Kafka 集群 环境 需要 的 软件 及 版 本 信息 


go F 版 ”本 
操作 系统 Ubuntul2. 04 64 bit 
JDK 1. 8.0_31 
Scala 2.11 
Zookeeper 3. 4. 6 
Kafka 0.8.2.1 


这 里 用 3 台 服 务 器 构建 Zookeeper 和 Kafka 集群 ， 每 台 服 务 器 上 安装 了 Ubuntul2. 04 64 
位 的 操作 系统 ， 还 要 安装 JDK, Scala, Zookeeper, Kafka 软件 ， 其 中 JDK 和 Scala 需要 在 安 
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4 Zookeeper 与 Kafka 时 ， 提 前 安装 好 。3 台 服 务 器 的 IP 及 host name 对 应 关系 如 表 15-3 


所 示 。 
表 15-3 搭建 Kafka 集群 Hostname 5 IP 对 应 表 
Host name IP 
Master 192. 168. 79. 180 
workerl 192. 168. 79. 181 
worker2 192. 168. 79. 182 


注意 : host name 要 在 安装 操作 系统 时 填写 ， 耳 可 以 使 用 固定 的 ， 配 置 文件 为 /etc/net- 
work/interfaces, host name 与 IP 的 映射 关系 配置 文件 可 在 /etc/hosts 中 修改 。 上 面 提 及 的 3 台 
服务 咒 ， 可 以 是 独立 的 计算 机 ， 也 可 以 是 安装 在 Vmare 中 的 3 台 虚 拟 机 ， 用 户 可 以 根据 实际 
情况 确定 。 

用 3 台 服 务 器 构建 Zookeeper 和 Kafka 集群 的 整体 结构 ， 如 图 15-6 所 示 ， 其 中 在 每 台 服 
务 器 上 安装 基础 的 JDK、Scala 软件 ， 之 后 在 这 3 AIRS Hh EAP HABE Zookeeper 集群 和 Kaf- 
ka 集群 ， 实 战 部 署 图 如 图 15-6 所 示 。 


I Zookeeper 

| | myid:1 

1 | server. 1=master:2888:3888 

1 

d 

T 
| broker.id=0 broker.id=1 broker.id=2 

1 


Kafka 集 群 


基础 软件 〈 必 需 ) : 基础 软件 (必需) : 基础 软件 (必需) : 
JDK1.8、Scala2.11 : JDK1.8, Scala2.11 ; JDK1.8, Scala2.11 


服务 器 : master 服务 器 : workerl 服务 器 : worker2 
IP: 192.168.79.180 IP: 192.168.79.181 IP: 192.168.79.182 


图 15-6 Kafka 集群 和 Zookeeper 集群 搭建 的 物理 结构 图 


(1) Zookeeper 的 安装 步骤 : 

1) 下 载 Zookeeper， 下 载 地 址 为 http ://apache. fayea. com/zookeeper/zookeeper — 3. 4. 6/。 

2) 将 下 载 好 的 zookeeper — 3. 4. 6. tar. gz， 复制 到 服务 器 master/workerl/worker2 中 。 

3) 进入 服务 右 master， 解 压缩 Zookeeper, 命令 为 tar -zxvf zookeeper — 3. 4. 6. tar. gz。 

4) 解压 缩 zookeeper - 3. 4. 6. tar. gz 包 后 ， 会 在 当前 文件 夹 下 生产 zookeeper - 3. 4.6 H 
录 ， 在 zookeeper -3.4.6 中 创建 两 个 文件 来， 分 别 为 zkdata/zkdataLog， 其 中 zkdata 用 来 存放 
Zookeeper 的 快照 日 志 ，zkdataLog 用 来 存放 事务 日 志 。 

5) 修改 配置 文件 ， 进 入 | 安装 目录 |/zookeeper -3.4.6/conf， 通 过 文件 zoo_sample. cfg, 
复制 一 份 zoo. cfg XF, MAN cp zoo_sample. cfg zoo. cfg. 
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打开 zoo. cfg 文件 ， 修 改 及 添加 的 参数 如 下 : 


Si Sa 
注意 


keeper 事 


dataDir = /home/hadoop/application/zookeeper — 3. 4. 6/zkdata 

dataLogDir = /home/hadoop/application/zookeeper — 3. 4. 6/zkdataLog 

server. | = master: 2888 :3888 © 
server. 2 = workerl :2888 :3888 

server. 3 = worker2 :2888 :3888 


1: dataDir 参数 用 来 配置 zookeeper 快照 日 志 的 存放 路 径 ，dataLogDir 用 来 配置 zoo- 
务 日 志 的 存放 路 径 。 如 果 不 配置 dataLogDir， 则 Zookeeper 的 快照 日 志和 事务 日 志 默 


认 放 在 dataDir 目录 下 ， 但 是 对 于 很 大 的 集群 ， 这 样 会 严重 影响 Zookeeper 的 性 能 。 


注意 


2: server. ] 、server. 2、server. 3 中 ， 其 中 的 数字 1、2、3 要 和 dataDir 目录 下 的 


myid 文 件 的 内 容 一 致 。 


注意 
的 master, 


3: JE master; 2888: 3888, workerl: 2888: 3888, worker2: 2888: 3888 中 ， 前 面 
workerl 、worker2 分 别 是 服务 器 的 hostname ， 如 果 没 有 配置 I P 和 hostname 的 映射 


关系 ， 这 里 用 IP 代替 ， 前 面 一 个 端口 2888 表示 Leader 与 Follower 之 间 的 通信 端口 ; 后 面 一 
个 端口 3888 表示 选举 Leader 与 Follower 的 通信 端口 ( 比如 启动 Zookeeper 集群 时 ， 要 选择 哪 
台 服 务 需 为 Leader， 哪 台 服 务 器 为 Follower 使 用 ， 或 者 Leader 宕 机 后 ， 再 选举 Leader 和 Fol- 
lower 时 通信 端口 ) 。 
6) 在 Zookeeper 快照 日 志 存 放 路 径 中 ， 添 加 myid 文件 ， 命 令 如 下 : 


hadoop@ master; ~ /application/zookeeper -3. 4. 6/zkdata $ echo"1" > myid 


Zookeeper 快照 日 志 目 录 : dataDir = /home/hadoop/application/zookeeper — 3. 4. 6/zkdata , 


7) 4 


别 进入 服务 器 workerl 、 服 务 需 worker2 ， 分 别 重复 步骤 3) 到 步骤 5) ， 在 步骤 6) 


时 ， 做 如 下 修改 ， 修 改 的 命令 分 别 如 下 : 


hadoop@ workerl : ~ /application/zookeeper — 3. 4. 6/zkdata $ echo"2" > myid 
hadoop@ worker2 ; ~ /application/zookeeper — 3. 4. 6/zkdata $ echo"3" >myid 


8) 在 服务 器 master H, HEA Zookeeper AY bin 目录 下 ， 启 动 Zookeeper, 命令 如 下 .: 


hadoop@ master; ~ /application/zookeeper -3. 4. 6/bin $ . /zkServer. sh 

JMX enabled by default 

Using config: /home/hadoop/application/zookeeper — 3. 4. 6/bin/. . /conf/zoo. cfg 
Usage: . /zkServer. sh { start | start — foreground | stop | restart | status | upgrade | print — cmd } 
hadoop@ master; ~ /application/zookeeper — 3. 4. 6/bin $ . /zkServer. sh start 


9) 再 分 别 进 入 服务 器 workerl 、 服 务 吉 workerz2 ， 执 行 与 步骤 8) 同样 的 操作 命令 。 


10) 
一 样 ): 


查看 Zookeeper 进程 的 状态 ,命令 如 下 (各 服务 器 执行 同样 的 命令 , 但 状态 不 
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hadoop@ master: ~ /application/zookeeper -3. 4. 6/bin $ . /zkServer. sh status 
JMX enabled by default 

Using config: /home/hadoop/application/zookeeper — 3. 4. 6/bin/. . /conf/zoo. cfg 
Mode; follower 


11) 也 可 以 通过 JPS 命令 来 查看 Zookeeper 的 进程 信息 ， 命 令 如 下 : 


hadoop@ master; ~ /application/zookeeper -3. 4. 6/bin $ jps 
5648 Jps 
5201 QuorumPeerMain 


功 的 标志 ， 


通过 上 面 的 操作 ， 完 全 分 布 式 Zookeeper 集群 就 搭建 并 部 署 好 了 ，Zookeeper 集群 搭建 成 
就 是 在 步骤 10) 、 步 又 11) 中 看 到 的 信息 。 


(2) Kafka 集群 搭建 步骤 如 下 : 

1) FÆ Kafka, PULL: http://kafka. apache. org/downloads. html, 

2) 将 下 载 好 的 kafka_2. 11 -0.8.2.1.tgz， 复 制 到 服务 需 master/workerl/worker2 "F, 
3) 进入 服务 器 master 中 ， 解 压缩 Kafka， 命 令 如 下 : 


hadoop@ master; ~ /application $ tar zxvf kafka_2. 11 -0.8.2.1.tgz 


4) 创建 Kafka 的 日 志 存 放 目 录 kafkaLogs， 命 令 如 下 : 


hadoop@ master; ~ /application/kafka_2. 11 - 0. 8. 2. 1 $ mkdir kafkaLogs 


5) 修改 配置 文件 ， 进 入 目录 |Z% ASE} /kafka_2. 11 -0.8.2.1/config， 编 辑 配 置 文件 
server. Eppes 修改 完 配 置 文件 | 安装 目录 |/kafka_2. 11 - 0. 8. 2. 1/config/server. properties 
后 ， 完 整 的 server. properties 配置 文档 请 参考 附录 A 。 修 改 及 添加 的 参数 如 下 所 示 : 


broker id =0 

host. name = master 

log. dirs = /home/hadoop/application/kafka_2. 11 -0. 8. 2. 1/kafkaLogs 
message. max. bytes = 5242880 


default. replication. factor =3 
replica. fetch. max. bytes = 5242880 


zookeeper. connect = master:2181 , workerl :2181 , worker2 :2181 


注意 1: 


broker. id =0, Kafka 中 Broker 的 ID 区 分 ， 值 从 0 开始 ， 这 里 配置 master 服务 


器 broker. id =0 workerl 服务 器 broker. id =1、worker2 服务 器 broker. id =2。 


注意 2: 


name, 


注意 3: 
注意 4: 


为 SMB。 
注意 5 
注意 


host. name = master 中 ， 将 host. name 的 值 ， 修 改 为 当前 服务 器 的 IP 或 者 host- 


参数 log. dirs 配置 中 ， 修 改 Kafka 的 日 志 存 放 目 录 。 
参数 message. max. bytes 配置 中 ， 修 改 消 息 发 送 的 最 大 字 节 数 ， 这 里 设置 


: 参数 default. replication. factor 配置 中 ， 修 改 Partition 副本 的 数量 ， 默 认 值 为 1。 
6: 参数 replica. fetch. max. bytes 配置 中 ， 默 认 值 为 1048576 (1024 x 1024) 。 
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注意 7: 参数 zookeeper. connect 配置 中 ,修改 Kafka 连接 Zookeeper 集群 服务 器 ， 服 务 器 
之 间 用 英文 逗号 (,) 隔 开 。 

6) 分 别 进 入 服务 器 workerl 、worker2 ， 分 别 进 行 步 又 3) 与 步骤 四 4) 的 操作 。 

7) 进入 服务 器 workerl ， 修 改 配置 文件 ， 进 入 目录 | 安装 目录 |/kafka_2. 11 -0.8.2.1/ S 
config， 编 辑 配置 文件 server. properties。 修 改 及 添加 的 参数 如 下 所 示 : 


broker. id = 1 

host. name = worker! 

log. dirs = /home/hadoop/application/kafka_2. 11 -0. 8. 2. 1/kafkaLogs 
message. max. bytes = 5242880 

default. replication. factor =3 

replica. fetch. max. bytes = 5242880 


zookeeper. connect = master:2181 , workerl :2181 , worker2 :2181 


8) 进入 服务 器 woker2 ， 修 改 配 置 文件 ,进入 目录 | 安装 目录 |}/kafka_2. 11 -0.8.2.1/ 
config， 编 辑 配置 文件 server. properties。 修 改 及 添加 的 参数 如 下 所 示 : 


broker id =2 

host. name = worker2 

log. dirs = /home/hadoop/application/kafka_2. 11 -0. 8. 2. 1/kafkaLogs 
message. max. bytes = 5242880 

default. replication. factor =3 

replica. fetch. max. bytes = 5242880 


zookeeper. connect = master:2181 , workerl :2181 , worker2 :2181 


9) Kafka 配置 完成 ， 进 入 Kafka 的 bin HÆF, | 安装 日 录 | /kafka_2. 11 -0. 8.2. 1/bin 
目录 ， 开 始 启动 Kafka 集群 ， 命 邻 如下: 


hadoop@ master; ~ /application/kafka_2. 11 - 0. 8. 2. 1/bin $ 


. / kafka — server — start. sh — daemon .. /config/server. properties 


10) 用 JPS 命令 ， 查 看 Kafka 启动 进程 ， 命 令 如 下 : 


hadoop@ master; ~ /application/kafka_2. 11 - 0. 8. 2. 1/bin $ jps 
5938 Jps 

5924 Kafka 

5821 QuorumPeerMain 


11) Kafka 安装 成 功 的 标志 ， 如 图 15-7 所 示 。 


hadoop@master:~/application/kafka_2.11-0.8.2.1/bin$ ./kafka-server-start.sh -daemon ../ 
config/server.properties 

hadoop@master:~/application/kafka_2.11-0.8.2.1/bin$ jps 

5938 Jps 

5924 Kafka 

5821 QuorumPeerMain 


图 15-7 Kafka 安装 成 功 的 标志 截图 展现 
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12) (额外 步骤 ) : 用 Kafka 自 带 的 Shell 控制 台 ， 来 进行 简单 的 实例 实践 。 如 创建 与 查 
看 Topic， 直 接 执行 生产 者 或 消费 者 等 ， ome TERA. 

D 随便 进入 一 个 服务 器 ， 比 如 这 里 进入 master 服务 器 ， 再 进入 Kafka AY bin 目录 下 ， 如 
{安装 目录 | /kafka_2. 11 -0. 8. 2. 1/bin， 创 建 一 个 名 称 为 test 的 Topic 主题 ， 命 令 如 下 : 


hadoop@ master; ~ /application/kafka_2. 11 —0.8.2.1/bin $ ./kafka - topics. sh —— create —zoo- 
keeper localhost :2181 —- replication — factor 2 —- partitions 1 —topic test 


Created topic" test". 


D 在 master 服务 器 上 ， 还 是 在 kafka 的 bin 目录 下 ， 可 以 通过 如 下 命令 来 查看 创建 的 
Topic 主题 ， 命 令 如 下 : 


hadoop@ master: ~ /application/kafka_2. 11 -0. 8. 2. 1/bin $ . /kafka -topics. sh —— list —— zookeep- 
er localhost ;2181 


test 


© 在 master 服务 器 上 ， 还 是 在 kafka 的 bin 目录 下 ， 执 行 生 产 者 ， 命 令 如 下 : 


hadoop@ master; ~ /application/kafka_2. 11 - 0. 8. 2. 1/bin $ . /kafka - console - producer. sh 一 bro- 
ker — list master:9092 —topic test 
[2015 -10 -06 18:32:10,331 ] WARN Property topic is not valid ( kafka. utils. VerifiableProperties ) 


@ 在 另外 一 台 服 务 器 上 ， 比 如 workerl 服务 器 ， 进 入 kafka 的 bin 目录 下 ， 执 行 消费 者 ， 


命令 如 下 : 


hadoop@ workerl : ~ /application/kafka_2. 11 — 0. 8. 2. 1/bin $ ./kafka - console - consumer. sh 一 一 


zookeeper localhost:2181 —-— topic test —— from - beginning 


© 之 后 就 可 以 在 master 服务 器 上 输入 信息 ， 就 可 以 实时 看 到 workerl 服务 器 输出 和 master 
服务 器 上 输入 一 样 的 信息 。 

13) (额外 步 又) : 用 Zookeeper 客户 端 命令 ， 来 查看 Kafka 集群 上 面 的 参数 信息 。 

D 随便 进入 一 个 服务 器 ， 比 如 进入 服务 器 worker2 ， 进 入 Zookeeper 安装 目录 下 的 bin H 
se, | 安装 日 录 | /zookeeper -3.4. 6/bin， 运 行 如 下 命令 : 


hadoop@ worker2 : ~ /application/zookeeper -3. 4. 6/bin $ . /zkCli. sh — server 


O 查看 目录 信息 出 的 信息 中 ， 除 了 zookeeper 是 Zookeeper 自己 的 以 外 ， 其 他 的 
全 部 是 Kafka 的 A 录 信 息 A) ， 命 令 如 下 : 


[zk: localhost:2181( CONNECTED)1 Jls / 


[ controller , controller_epoch, brokers , zookeeper , admin , consumers , config | 


© 查看 Kafka 中 brokers 中 的 信息 ， 命 令 如 下 : 
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[zk: localhost:2181( CONNECTED)2 |1ls /brokers 
[ ids, topics | 


(@ 查看 Kafka 中 brokers F ids 中 的 目录 信息 ， 命 令 如 下 : 


[ zk; localhost ;2181(CONNECTED)3 ]ls /brokers/ids 
[0,1,2] 


© 查看 Kafka 中 brokers F ids 中 0 的 信息 ， 命 令 如 下 : 


[zk: localhost:2181( CONNECTED )7 | get /brokers/ids/0 
{"jmx_port" : — 1 ," timestamp" :" 1444126531387" ," host" ;" master" ," version" :1 ," port" :9092 | 
cZxid =0x200000012 

ctime = Tue Oct 06 18:15:31 CST 2015 

mZxid =0x200000012 

mtime = Tue Oct 06 18:15:31 CST 2015 

pZxid =0x200000012 

cversion =0 

dataVersion =0 

aclVersion =0 

ephemeralOwner = 0x2503ca2aa940000 

dataLength = 83 

numChildren =0 


这 里 已 经 搭建 了 一 个 完全 分 布 式 的 Zookeeper 集群 和 一 个 Kafka 集群 ， 这 里 通过 Kafka 集 
BE, FA Kafka 自 带 的 Shell 客户 端 模 拟 了 Kafka 的 Producer 和 Consumer 过 程 ， 之 后 用 Zoo- 
keeper 的 客户 端 命令 ， 操 作 查 看 Kafka 中 的 相关 信息 。 


J] 基于 Kafka 客户 端 开 发 


上 面 已 经 搭建 好 了 基于 Katka 开发 应 用 程序 的 环境 ， 相 信 大 家 应 该 非常 期 待 Kafka 的 客 
户 端 开发 ， 接 下 来 将 详细 讲解 怎样 开发 Kafka 的 生产 者 (Producer) 和 消费 者 (Consumer), 
本 节 先 介绍 Kafka 生产 者 编程 设计 及 Kafka 消费 者 编程 设计 ， 再 对 Kafka 的 生产 者 和 消费 者 
的 编程 步 又 及 相应 的 参数 设置 进行 详细 阐述 ， 之 后 对 Kafka 生产 者 和 消费 者 的 常用 配置 参数 
做 了 一 个 分 类 和 总 结 。 

Apache Kafka 框架 是 用 Scala 语言 开发 的 ，Apache Kafka 在 大 数据 技术 栈 中 的 流行 ， 也 
归结 于 Kafka 运用 了 Scala 语言 并 发 编程 的 优势 ， 用 很 少 的 代码 实现 了 高 可 用 、 高 性 能 的 分 
布 式 消息 系统 。 其 中 Apache Kafka 对 语言 的 文 持 也 比较 丰富 ， 其 中 包括 对 Java, Python, 
Go, Ruby, Scala, C/C++ 等 等 。 换 句 话说， 读者 可 以 基于 Kafka 提供 的 API， 用 这 些 语言 
来 编写 自己 的 客户 端 程序 。Apache Kafka 的 通信 协议 在 0.8.X 版 本 改动 比较 大 ，Apache 
Kafka 官 网 表示 ， 自 从 0.8 发 布 版 开始 ，Apache Kafka 继续 维护 已 有 语言 实现 的 Kafka 客户 端 
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API， 但 是 基于 JVM 的 Kafka 客户 端 是 Apache Kafka 维护 的 重点 ， 并 和 基线 代码 保持 一 致 ， 
也 就 是 说 ，Apache Kafka 客户 端 API 支持 最 好 的 是 Java 语言 ， 基 于 这 个 原因 ， 本 节 主 要 使 用 
Java 语言 来 对 Kafka 客户 端 开 发 进行 讲解 ， 部 分 例子 也 用 Scala 语言 实现 ， 供 读者 对 比 参考 。 

现在 ， 虽 然 Apache Kafka 对 Scala 语言 API 的 支持 还 不 是 很 完善 ， 随 着 读者 对 Scala 语 
言及 Apache Kafka 框架 的 深入 学 习 和 理解 ， 在 阅读 完 本 节 后 ， 可 以 试 着 用 Scala 语言 来 实现 
Kafka 的 客户 端 程序 ， 将 遇 到 的 问题 和 建议 回馈 给 Apache Kafka, {EË Apache Kafka 对 Scala i 
言 客 户 端 APL 文 持 越 来 越 强大 。 

Kafka 作为 一 个 消息 队列 ，Kafka 集群 就 应 该 具备 对 消息 的 独特 处 理 能 力 ， 搭 建 集群 上 
的 kafka， 怎 样 来 控制 这 些 消息 的 处 理 流程 ， 即 Katka 怎样 从 所 要 的 应 用 中 收集 消息 ， 怎 样 
将 获得 的 消息 发 送 到 其 他 地 方 ， 这 些 就 是 本 节 所 关心 的 内 容 ， 利 用 Kafka 提供 的 API 来 实现 
这 些 数据 接收 和 发 送 功能 。 换 句 话 说， 就 是 用 Kafka 提供 的 API 来 实现 消息 队列 中 的 生产 者 
(Producer) 和 消费 者 (Consumer) 。 


消息 生产 者 (Producer) 设计 


Producer 发 送 一 条 消息 时 ， 可 以 指定 这 条 消息 的 key，Producer 根据 这 个 key 和 Partition 
机 制 来 判断 应 该 将 这 条 消息 发 送 到 哪个 Parition。 因 此 用 户 在 编写 自己 的 类 时 ， 只 要 实现 
kafka. producer. Partitioner 接口 即 可 。 假 设 这 条 消息 的 key 可 以 解析 成 整数 ， 那 么 就 可 以 将 该 
数 与 Partition 总 数 取 余数 ， 之 后 就 可 以 将 消息 发 送 到 指定 的 Partition 上 去 ， 其 中 Partition 序 
列 号 从 零 开 始 。 现 在 大 家 自 定 义 一 个 分 区 类 SelfDefiningPartitioner， 相 关 的 语句 如 下 所 示 : 


1 public class SelfDefiningPartitioner implements Partitioner | 

2 public SelfDefiningPartitioner( VerifiableProperties props) | 

3 | 

4 @ Override 

5 public int partition( Object obj ,intnumPartitions ) | 

6 int partition =0; 

7 if (objinstanceof String) | 

8 String key = (String) obj; 

9 int offset = key. lastIndexOf( .' ) ; 

10. if (offset >0) | 

11. partition = Integer. parseInt( key. substring( offset + 1) ) % numPartitions ; 
12. | 

13. | else} 

14. partition = obj. toString( ). length ( ) % numPartitions ; 
15. } 

16. return partition ; 

17. | 

18. 


通过 自 定 义 的 类 来 实现 Partition 接口 之 后 ， 就 可 以 在 程序 中 使 用 这 个 自 定义 类 。 现 在 创 
建 一 个 Producer 类 ProducerInstance， 在 ProducerInstance 类 中 ， 具 体 代 码 的 编写 步骤 如 下 
所 示 : 
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1) 添加 Katka 集群 中 Broker 列表 配置 信息 (格式 为 IP: port， 或 者 hostname: port) ， 这 
里 无 须 指定 集群 中 的 所 有 Boker， 只 要 指定 其 中 部 分 即 可 ， 它 会 自动 取 meta 信息 并 连接 到 对 
应 的 Boker 节点 。 


Properties props = new Properties( ) ; props. put(" metadata. broker. list" ," 192. 168. 79. 180 :9092 ， 
192. 168. 79. 181 :9092 ,192. 168. 79. 182:9092" ) ; 


2) 添加 Kafka 集群 序列 化 处 理 配 置信 息 (用 户 可 以 自 定义 ， 其 中 serializer. class, RA 
为 kafka. serializer. DefaultEncoder， 即 byte [ ] ， 其 中 key. serializer. class 为 单独 序列 化 可 以 处 
FÆ, RIAN serializer. class 一 致 ) ， 即 kafka 通过 哪 种 序列 化 方式 将 消息 传输 给 Boker, K 
家 也 可 以 在 发 送 消息 的 时 候 指 定 序 列 化 类 型 ， 不 指定 则 使 用 默认 序列 化 类 型 。 


props. put(" serializer. class" ," kafka. serializer. StringEncoder" ) ; 


props. put(" key. serializer. class" ," kafka. serializer. StringEncoder" ) ; 


3) 添加 Kafka 集群 Broker 分 区 类 配置 ， 指 定 消 息 发 送 对 应 分 区 方式 ， 若 不 指定 ， 则 随 
机 发 送 到 一 个 分 区 ， 也 可 以 在 发 送 消息 的 时 候 指 定 分 区 类 型 。 这 里 使 用 自 定 义 的 分 区 方式 。 


"n 


rops. put( " partitioner. class" ," org. guanxiangqing. kafkaSample. SelfDefiningPartitioner" ) ; 
props. p P & 8 


4) 添加 Kafka 的 触发 acknowledgement 机 制 ， 其 中 的 值 可 以 是 0、1、- 1。 其 中 值 为 0 
时 ， 表 示 Producer 不 等 待 Broker 的 acknowledgement， 特 点 是 延迟 最 少 ， 但 数据 持久 性 保证 
最 差 ; 其 中 的 值 设 置 为 1 时 ， 表 示 Broker 中 的 Leader 副本 接收 到 数据 后 ， 才 向 Kafka 的 Pro- 
ducer 发 送 acknowledgement， 特 点 是 数据 具有 比较 好 的 持久 性 保证 ;其 中 的 值 设 置 为 - 1, 
表示 Broker 中 所 有 的 同步 副本 接收 到 数据 后 才 向 Kafka 的 Producer 发 送 acknowledgement， 特 
点 是 数据 具有 特别 好 的 持久 性 保证 。 


nae ot roe mate att ve mda 
5) 将 这 些 配 置 加 到 Producer 配置 类 中 。 

Pidie tonie aois cnay Painea oie n) s 
6) 创建 Producer 类 实例 对 象 。 


Producer < String , String > producer = new Producer < String, String > (config) ; 


7) 实现 相应 的 业务 逻辑 ， 即 实现 Producer 向 Broker 发 送 消息 数据 。 

8) 关闭 Producer 实例 。 

通过 上 面 的 步骤 ， 完 全 使 用 Java 语言 ， 基 于 Kafka 提供 的 ProducerAPI 实现 了 KafkaPro- 
ducer 的 设计 ， 其 中 包括 自 定义 分 区 的 设计 ， 对 于 分 区 设计 ， 读 者 可 以 按照 自己 的 实际 场景 
进行 优化 设计 ， 其 他 直接 按照 这 个 模板 就 能 简单 地 实现 自己 的 KafkaProducer 应 用 。 为 了 能 
让 读者 对 整个 步骤 有 个 全 局 了 认识 ， 这 里 自 定 义 一 个 Producer 类 ProducerInstance， 完 整 的 生 
产 者 ProducerInstance 类 程序 代码 如 下 所 示 。 
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public class ProducerInstance | 


public static void main( String[ | args) | 
int events = 100; 
Properties props = new Properties(); // 创建 保存 配置 参数 的 对 象 
props. put ( " metadata. broker. list" ," 192. 168. 79. 180; 9092, 192. 168. 79. 181: 9092, 
192. 168. 79. 182:9092" ) ; /指定 将 Katka 集群 的 服务 器 列表 
props. put( "serializer. class" ," kafka. serializer. StringEncoder"); /指定 序列 化 类 
props. put("key. serializer. class" ," kafka. serializer. StringEncoder" ) ; /指定 序列 化 类 
// 指定 分 区 的 方式 ,这 里 使 用 自己 定义 的 方式 
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props. put( " partitioner. class" ," org. guanxiangqing. kafkaSample. SelfDefiningPartitioner" ) ; 
props. put( " request. required. acks" ,"1" ) ; 


ProducerConfig config = new ProducerConfig( props); // 将 相关 参数 放 到 生产 配置 对 象 中 
Producer < String, String > producer = new Producer < String, String > ( config) ; 


long start = System. currentTimeMillis( ) ; 

for (long i=0; i < events; i++) | 
long runtime = new Date( ). getTime() ; 
String ip =" 192. 168.79." +i; 


String msg = runtime +" , www. example. com," 


+ Ip; 
KeyedMessage < String, String > data = new KeyedMessage < String, String > ( 
"page_visits" ,ip ,msg) ; // 模拟 生成 相关 数据 
producer. send( data); ”// 发 送 数 据 
} 
System. out. println(" 耗 时 :" + (System. currentTimeMillis( ) — start) ) ; 
producer. close( ) ; //X M] producer 


消息 消费 者 (Consumer) 设计 


Kafka 中 的 Consumer 设计 是 比较 核心 的 部 分 ，Kafka 的 Consumer API 分 为 The Low Level 
Consumer API 和 The High Level Consumer API， 先 用 The High Level Consumer API 来 开发 Kaf- 
ka AY Consumer 程序 ， 因 为 使 用 Kafka 中 的 The High Level Consumer API, 2% Consumer 程序 
变 得 非常 简单 ， 不 需要 考虑 过 多 的 细节 ， 只 要 能 从 Kafka PAY Broker 获取 数据 即 可 。 

虽然 在 前 面 的 Kafka 的 核心 特征 剖析 部 分 ， 对 Kafka 的 Consumer 原理 进行 了 详细 地 阐述 
和 分 析 ， 这 里 还 要 注意 如 下 细节 : 

1) The High Level Consumer API 会 在 内 部 将 消息 进行 持久 化 ， 并 读 到 消息 的 offset， 数 据 
保存 在 Zookeeper 中 的 Consumer Group 名 中 (如 /consumers/console - consumer — 41521/off- 
sets/test/0。 其 中 console - consumer -41521 是 消费 组 ，test 是 topic， 最 后 一 个 0 表示 第 一 个 
分 区 ) ， 每 间隔 一 个 很 短 的 时 间 更 新 一 次 offset， 那 么 可 能 在 重启 消费 者 时 拿 到 重复 的 消息 。 
此 外 ， 当 分 区 Leader 发 生变 更 时 ， 也 可 能 拿 到 重复 的 消息 。 因 此 在 关闭 消费 者 时 最 好 等 待 
一 定 的 时 间 (10s) 然后 再 shutdown( ) 。 

2) Consumer Group 名 是 一 个 全 局 信息 ， 要 注意 在 启动 新 的 消费 者 之 前 ， 要 关闭 旧 的 消 
费 者 。 如 果 启 动 新 的 进程 并 且 Consumer Group 名 相同 ，Kafka 会 添加 这 个 进程 到 可 用 消费 线 
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程 组 中 ， 并 用 来 消费 Topic 和 触发 重新 分 配 负 载 均衡 ， 那 么 同一 个 分 区 的 消息 就 有 可 能 发 送 
到 不 同 的 进程 中 。 

3) 消费 的 线程 多 于 分 区 数 ， 一 些 线程 可 能 永远 无 法 看 到 一 些 消息 。 

4) 分 区 数 多 于 线程 数 ， 一 些 线程 会 收 到 多 个 分 区 的 消息 。 

5) 一 个 线程 对 应 了 多 个 分 区 ,那么 接收 到 的 消息 是 不 能 保证 顺序 的 。 

注意 : 可 用 Zookeeper 中 的 zkCli. sh 命令 查询 Kafka 中 的 信息 。 

1. 用 The High Level Consumer API 编写 Consumer 程序 

现在 用 Kafka 的 The High Level Consumer API 来 编写 Consumer 程序 ， 先 创建 一 个 Con- 
sumerlnstanceHighLevelAPI 类 ， 在 类 ConsumerInstanceHighLevelAPI 中 ， 编 写 步 又 如 下 : 

1) 添加 Zookeeper 服务 器 地 址 的 配置 信息 。 


Properties props = new Properties( ) ; 
props. put( " zookeeper. connect" ," 192. 168. 79. 180:2181" ) ; 


2) 添加 Consumer Group 配置 信息 ， 如 果 不 指定 ，Kafka 会 自动 添加 Consumer Group 名 称 ， 
比如 上 面 用 到 的 console - consumer -41521 ， 就 是 Kafka 自动 生成 的 Consumer Group 名 称 。 


props. put(" group. id" ," group_id1" ) ; 

3) 添加 Kafka 等 待 Zookeeper 返回 消息 的 超时 时 间 配 置信 息 。 
props. put( " zookeeper. session. timeout. ms" ," 4000" ) ; 

4) 添加 Zookeeper 同步 最 长 延迟 多 久 才 产生 异常 配置 信息 。 


props. put( "zookeeper. sync. time. ms" ," 2000" ) ; 


5) 添加 Consumer 多 久 更 新 offset 到 Zookeeper 的 配置 信 
不 是 每 次 获得 的 消息 。 一 旦 在 更 新 zookeeper 时 发 生 异 常 并 习 


息 ，offset 更 新 是 基于 时 间 的 ， 而 
启 ， 将 可 能 获取 已 获取 过 的 消息 。 
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props. put(" auto. commit. interval. ms" ," 1000" ) ; 
6) 创建 Consumer 对 象 实例 ， 将 上 面 的 配置 信息 添加 到 Consumer 对 象 中 。 


ConsumerConnector consumer = Consumer. createJavaConsumerConnector ( new ConsumerConfig 


(props) ) ; 


7) 创建 线程 数量 ， 告 诉 Katka 该 进程 有 多 少 线程 来 处 理 对 应 的 Topic, 


Map < String, Integer > topicCountMap = new HashMap < String, Integer > ( ) ; 
int a_numThreads =3 ; 


topicCountMap. put(" test" ,a_numThreads ) ; 
8) 获取 每 个 stream 对 应 的 Topic. 


Map < String, List < KafkaStream < byte [ ] ,byte [ ] >>> consumerMap = consumer 
. createMessageStreams (topicCountMap ) ; 


List < KafkaStream < byte | ] , byte [ ] >> streams = consumerMap. get( " test" ) ; 
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9) 使 用 Executor 来 创建 一 个 线程 池 ， 之 后 调用 线程 池 来 处 理 Topic。 相 关 实 现代 码 如 下 
所 示 。 


ExecutorService executor = Executors. newFixedThreadPool( a_numThreads ) ; 


for (final KafkaStream <?,? >stream ; streams) | 


1 

2 

3. executor. submit( new Runnable( ) | 
4 public void run( ) | 

5 


Consumerlterator < byte{ | ,byte[ ] > it = (Consumerlterator < byte[ | , byte[ | 


> ) stream. iterator( ) ; 


6 while (it. hasNext() ) { 

Th System. out. println (Thread. currentThread( ) +" ;" 
8 + new String (it. next( ). message() ) ) ; 
9. } 

10. } 

11. t); 

12. } 


10) 关闭 Consumer 对 象 实例 。 

通过 上 面 的 步骤 ,我们 用 Java 语言 ， 基 于 Kafka 提供 的 Consumer 高 级 API 实现 了 一 个 
完整 的 KafkaConsumerDemo 很 多 代码 多 可 以 复 用 读者 只 需要 理解 上 面 的 步骤 5 就 可 以 以 
其 为 模板 ， 写 出 自己 的 KafkaConsumer。 特 别 注意 的 是 ， 上 面 是 使 用 Apache Kafka 提供 的 高 
级 API 实现 的 KakkaConsumerDemo， 为 了 让 读者 有 个 全 局 的 认 知 ， 这 里 我 们 提供 了 一 个 Con- 
sumer 类 ConsumerInstanceHighLevelAPI， 完 整 的 ConsumerInstanceHighLevelAPI 类 源 代码 如 下 
所 示 。 


1. public class ConsumerInstanceHighLevelAPI | 

2 public static void main ( String[ | arg) throws IOException | 

3 Properties props = new Properties( ) ; // 创建 保存 配置 参数 的 对 象 

4 props. put(" zookeeper. connect" ,"192. 168. 79. 180 :2181" ) ; /指定 连接 Zookeeper 集群 信息 
5 props. put(" group. id" ," group_idl"); 指定 Group. id 
6 
7 
8 
9 


props. put( " zookeeper. session. timeout. ms" ," 4000" ) ;// 指 定 Zookeeper 中 session 超时 时 间 
props. put( " zookeeper. sync. time. ms" ," 2000"); /指定 ZK Fellower 跟随 ZK Leader 时 间 
props. put(" auto. commit. interval. ms" ," 1000" ) ; /指定 消费 者 提交 offsets 到 Zookeeper 的 频率 
ConsumerConnector consumer = Consumer // 创 建 消费 者 配置 参数 对 象 


10. . createJavaConsumerConnector( new ConsumerConfig( props) ) ; 


11. Map < String, Integer > topicCountMap = new HashMap < String, Integer > (); 

12. int a_numThreads =3; 

13. topicCountMap. put( "test" ,a_numThreads) ; /指定 Topic 消费 的 线程 数 

14. Map < String, List < KafkaStream < byte[ ] ,byte[ ] >>> consumerMap = consumer 

15. . createMessageStreams(topicCountMap); // 获取 Stream 对 应 的 Topic 

16. List < KafkaStream < byte[ | ,byte[ | >> streams = consumerMap. get(" test" ) ; 

17. ExecutorService executor = Executors. newFixedThreadPool( a_numThreads) ; /创建 线程 池 
18. for (final KafkaStream <?,? > stream ; streams) | // 遍历 Stream 来 执行 消费 者 
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19. executor. submit( new Runnable( ) | 

20. public void run( ) | 

21. Consumerlterator < byte[ | ,byte[ | > it = (Consumerlterator < byte[ ] ,byte[ | >) 
stream. iterator( ) ; 

22% while (it. hasNext( ) ) | 

DB System. out. printIn( Thread. currentThread( ) +" ;" 

24. + new String(it. next( ). message( ) ) ) ; 

2 | 

26. } 

Ul DE 

28. } 


29. System. in. read( ) ; 
30. if (consumer ! =null) /关闭 消费 者 


31. consumer. shutdown ( ) ; 
32. if (executor ! =null) 

33. executor. shutdown( ) ; 
34. } 

D 


2. FA The Low Level Consumer API 编写 Consumer 程序 

使 用 Kafka 的 The Low Level Consumer API 来 编写 Consumer 的 应 用 场景 为 ， 第 一 : 针对 
一 个 消息 读 取 多 次 ; 第 二 : 在 一 个 process 中 ， 仅 仅 处 理 一 个 topice 中 的 一 组 partitions; 第 

: 确保 每 个 消息 只 被 处 理 一 次 。 因 此 ， 如 果 您 的 业务 常用 有 这 些 需 求 ，Kafka 的 The Low 
Level Consumer API 就 是 最 佳 的 选择 了 ， 现 在 用 Kafka 的 The Low Level Consumer API 来 编写 
Consumer。 

在 用 Kafka 的 The Low Level Consumer API 来 编写 Consumer 时 ， 要 注意 几 点 ， 相 对 于 
Kafka 中 The High Level Consumer API, 用 Kafka 的 The Low Level Consumer API 来 编写 Con- 
sumer 需要 程序 员 自 己 处理 更 多 的 细节 ， 比 如 : 

1) 程序 员 必 须 实现 ， 当 消费 停止 时 ， 如 何 持 久 化 offset。 

2) 程序 员 必 须 实现 ， 怎 样 处 理 Topic 和 分 区 ， 并 确定 哪个 Broker 上 的 Partition 是 Leader, 

3) 程序 员 必 须 实现 ， 当 Leader 宕 机 时 ， 怎 样 选择 新 的 Leader, 

基于 Kafka 的 The Low Level Consumer API 来 编写 Consume 步骤 如 下 : 

1) 创建 一 个 Consumer 类 5 这 里 为 ConsumerInstanceLowLevelAPI 类 。 

2) 找到 Broker 中 的 Leader， 以 便 读 取 Topic 和 Partition ， 这 里 主要 是 获得 Metedata 信息 ， 
注意 ， 这 里 也 不 需要 添加 所 有 的 Broker 列表 ， 只 要 连接 其 中 的 一 个 Broker， 就 可 以 通过 集群 
中 的 配置 信息 ( Kafka 内 部 机 制 ) ， 获得 所 有 的 Broker 列表 。 

3) 通过 获取 的 Topic 和 Partition 信息 ， 自 己 决 定 哪个 副本 作为 Leader， 并 通过 offset， 来 实现 
消息 的 持久 化 。 在 获取 所 有 leader 的 同时 ， 可 以 用 metadata. replicas( ) 更 新 最 新 的 节点 信息 。 

4) 建立 业务 需要 的 数据 。 

5) 获取 数据 。 

6) 确定 当 其 中 的 Leader 因为 宕 机 而 丢失 时 ， 怎 样 选举 新 的 Leader, 
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上 面 就 是 使 用 Apache Kafka 提供 的 低级 ConsumerAPI 来 实现 Kafka 的 Consumer 的 详细 步 


又 ， 读 者 也 可 以 用 上 面 的 模板 编写 自己 的 KafkaConsumer。 但 是 用 Kafka 提供 的 低级 API 来 
实现 Consumer 比 用 Kafka 提供 的 高 级 API 来 实现 Consumer 复杂 很 多 ， 因 为 在 使 用 低级 API 
实现 Kafka 的 Consumer， 要 对 Consumeroffsets 进行 控制 实现 、 对 副本 Leader 实现 选举 机 制 ， 
这 对 用 户 来 说 是 一 个 极 大 的 挑战 。 为 了 让 读者 从 全 局 来 理解 基于 Kafka 低级 API 来 实现 Kaf- 
kaConsumer 的 过 程 ， 这 里 我 们 实现 了 一 个 Consumer 类 ConsumerInstanceLowLevelAPI， 完 整 的 
ConsumerInstanceLowLevelAPI 类 源 代码 如 下 所 示 。 读 者 在 阅读 如 下 代码 时 ， 不 懂 的 地 方 可 以 
参考 代码 中 的 注释 和 上 面 步 又 分 析 ， 代 码 如 下 。 


1. 


public class ConsumerInstanceLowLevelAPI | 


public static void main (String[ ] arg) throws UnsupportedEncodingException ， 


InterruptedException | 
String topic = "test" ; // 初始 化 Topic 名 称 
int partition =1; // 指定 分 区 的 数量 
String brokers = " 192. 168. 79. 180 :9092" ; // 初始 化 Kafka Broker 信息 


int maxReads = 100; 


PartitionMetadata metadata = null ; 


for (String ipPort ; brokers. split(",")) | // 以 逗号 遍历 所 有 的 Kafka Broker 列表 
SimpleConsumer consumer = null; // 创 建 Consumer 对 象 
try | 


String[ ] ipPortArray = ipPort. split(" :" ) ; // 获取 IP 和 端口 信息 
consumer = new SimpleConsumer( ipPortArray[ 0 | , 
Integer. parseInt(ipPortArray| 1 | ) ,100000 ,64 * 1024, 
"leaderLookup" ) ; // 实 例 化 Consumer 对 象 
List < String > topics = new ArrayList < String > ( ) ; 
topics. add( topic) ; 
// 通 过 Topic 获取 ,Kafka 中 所 有 的 Brokers 列表 信息 ,因此 在 Topic 初始 化 时 候 , 不 需要 列 
举 所 有 的 Broker 列表 信息 ,全 部 Broker 列表 会 在 连接 Kafka 集群 后 进行 获取 


TopicMetadataRequest req = new TopicMetadataRequest( topics ) ; 


TopicMetadataResponse resp = consumer. send (req) ; 
List < TopicMetadata > metaData = resp. topicsMetadata( ) ; 
for (TopicMetadata item : metaData) | 
for (PartitionMetadata part : item. partitionsMetadata() ) | 
System. out. println(" ----" + part. partitionld() ) ; 
if (part. partitionId( ) == partition) | 
metadata = part; 


break ; 


} 
} catch (Exception e) | // 打 印 异常 处 理 信 息 


" 


System. out. println(" Error communicating with Broker [" + ipPort 


31. 
3 
33. 
34. 
35. 
36. 
3 
38. 
39. 
40. 
41. 
42. 
43. 
44. 
45. 
46. 
47. 
48. 
49. 
50. 
51. 
52 


53), 
54. 
SD) 
56. 
Sie 
58. 
59. 
60. 
61. 
62. 
63. 


64. 
65. 
66. 
67. 
68. 
69. 
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+" | to find Leader for [" +topic +" ," + partition 
Pp ， P 


+" ] Reason; " +e); 
} finally | 


if (consumer | = null) > 


consumer. close( ) ; // 关闭 Consumer 


} 

if (metadata == null | | metadata. leader( ) == null) | // 对 元 数据 及 元 数据 leader 进行 判断 
System. out. println( " meta data or leader not found exit. " ) ; 
return ; 

} 

Broker leadBroker = metadata. leader( ) ; /获取 Broker 的 Leader 

System. out. println( metadata. replicas()); // 输出 Broker 的 备份 数量 


long whichTime = kafka. api. OffsetRequest. EarliestTime( ) ; 


System. out. println( " lastTime;" + whichTime) ; 


String clientName = " Client_" + topic + '"_" + partition; 
SimpleConsumer consumer = new SimpleConsumer(leadBroker. host( ) , 

leadBroker. port( ) , 100000 ,64 * 1024 ,clientName) ;//@!/ Consumer 对 象 (实例 化 ) 
TopicAndPartition topicAndPartition = new TopicAndPartition ( topic , 

partition); // 创建 TopicAndPartition 实例 化 对 象 


Map < TopicAndPartition ,PartitionOffsetRequestInfo > requestInfo = new HashMap < TopicAnd- 


Partition , PartitionOffsetRequestInfo > ( ) ; 

// 下 面 的 代码 主要 就 是 获取 Consumer offsets 

requestInfo. put( topicAndPartition , new PartitionOffsetRequestInfo( 
whichTime ,1) ) ; 


OffsetRequest request = new OffsetRequest ( requestInfo , 
kafka. api. OffsetRequest. CurrentVersion( ) ,clientName) ; 
OffsetResponse response = consumer. getOffsetsBefore ( request ) ; 
if (response. hasError()) | // 对 Response 返回 的 错误 进行 输出 ,便于 分 析 和 排查 问题 


System. out 


. println( " Error fetching data Offset Data the Broker. Reason; " 
+ response. errorCode( topic, partition) ) ; 


return; 


| 
// 通 过 Response 来 获取 返回 的 Consumer offsets 


long| | offsets = response. offsets(topic , partition ) ; 


System. out. println( offset list:" + Arrays. toString( offsets) ) ; // 输出 offsets 列表 
long offset = offsets[ 0 ] ; 
while (maxReads > 0) | 
kafka. api. FetchRequest req = new FetchRequestBuilder( ). clientId( clientName ) 
. addFetch( topic, partition, offset , 100000 ). build ( ) ; 
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70. FetchResponse fetchResponse = consumer. fetch(req) ; //Consumer 数据 信息 
71. if (fetchResponse. hasError()) | // 对 返回 错误 信息 进行 输出 跟踪 
72 short code = fetchResponse. errorCode( topic, partition) ; 
73. System. out. println( " Error fetching data from the Broker;" 
74. + leadBroker +" Reason; " + code) ; 
1S: return; 
76. } 
WIE boolean empty = true; 

// Wi MessageAndOffset 对 象 的 数据 
2. for (MessageAndOffset messageAndOffset : fetchResponse. messageSet ( 
79. topic, partition) ) | 
80. empty = false; 
81. long curOffset = messageAndOffset. offset( ) ; /获取 当前 的 offset 值 
82. if (curOffset < offset) | 
83. System. out. println( " Found an old offset; " + curOffset 
84. +" Expecting: " + offset) ; 
85. continue ; 
86. | 

// 获 取 MessageAndOffset 对 象 的 下 一 个 offset 值 

87. offset = messageAndOffset. nextOffset( ) ; 
88. ByteBuffer payload = messageAndOffset. message( ). payload( ) ; 
89. byte[ ] bytes = new byte[ payload. limit( ) ] ; 
90. payload. get( bytes); /加 载 获 取 数 据 
91. System. out. println( String. valueOf( messageAndOffset. offset( ) ) 
92. +"; "+new String( bytes," UTF -8") ); 
93. maxReads ++ ; 
94. } 
95. if( empty) | 
96. Thread. sleep( 1000) ; 
97. } 
98. } 
99. if (consumer | = null) 
100. consumer. close( ) ; // 关 闭 Consumer 
101. | 
102. | 


到 目前 为 止 ， 我 们 已 经 详细 讲解 了 用 Kafka 的 The Low Level Consumer API 和 The High 
Level Consumer API 来 编写 Consumer 应 用 程序 ， 读 者 可 以 使 用 这 些 思 路 和 方法 来 编写 更 加 复 
ZR) Consumer 业务 逻辑 了 。 


3 ROSEE > 


在 编写 Producer 和 Consumer 程序 时 ， 用 到 了 很 多 配置 项 ， 这 些 配置 项 可 以 在 程序 中 指 
定 ， 也 可 以 在 Kafka 配置 文件 中 配置 ，Producer 配置 文件 为 producer. properties, BARMEN 
| Kafka 安装 目录 |/kafka_2.11 - 0.8. 2. 1/config/producer. properties; Consumer 配置 文件 
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为 consumer. properties， 具 体位 置 在 | Kafka 安装 目录 } /kafka_2. 11 -0. 8. 2. 1/config/consum- 
er. properties。 
这 里 对 一 些 常 用 的 配置 项 进行 简单 的 解析 ， ae 配置 解析 表 如 表 15-4 AN, Consum- 
er 配置 解析 表 如 表 15-5 所 示 。 iin 息 请 参考 Kafka Configuration, > 


表 15-4 FA Producer 3 producer. properties 配置 


配置 名 称 功 能 
metadata. broker. list 指定 Broker 节点 列表 ， 用 于 获取 metadata， 不 必 全 部 指定 


指定 Producer 发 送 请 求 如 何 确认 完成 : 0 ( 上 默认) 表示 Producer 不 用 等 待 Broker 返 
i red adk 回 ack, 1 表示 当 有 副本 收 到 了 消息 后 发 回 ack 给 生产 者 (如 果 Leader 宕 机 且 刚 好 收 到 
S 消息 的 副本 消息 丢失 ) 。 -1 表示 所 有 已 同步 的 复 本 收 到 了 消息 后 发 回 ack 给 Producer 
(可 以 保证 只 要 有 一 个 已 同步 的 复 本 存活 ， 就 不 会 有 数据 丢失 ) 


同步 还 是 异步 ， 默 认 2 表示 同步 ，1 表示 异步 。 异 步 可 以 提高 发 送 否 吐 量 , 但 是 也 


DIOS YP 可 能 导致 丢失 未 发 送 过 去 的 消息 

queue. buffering. max. ms 如 果 是 异步 ， 指 定 每 次 发 送 最 大 间隔 时 间 

queue. buffering, max. messages 如 果 是 异步 ， 指 定 每 次 发 送 缓存 最 大 数据 量 

serializer, class 指定 序列 化 处 理 类 ， 默 认为 kafka. serializer. DefaultEncoder, Ell byte [ ] 

key. serializer. class 单独 序列 化 key ALIE, HRAM serializer. class 一 致 

partitioner class 指定 分 区 处 理 类 。 默 认 kafka. producer. DefaultPartitioner， 表 通过 key hash 到 对 应 分 区 
message. send. max. retries 消息 发 送 重 试 次 数 ， 默 认为 3 次 

retry. backoff. ms 消息 发 送 重 试 间隔 次 数 


是 否 压 缩 ， 默 认 0 表示 不 压缩 ，!1 表示 用 gip 压缩 ，2 表示 用 snappy 压缩 。 压缩 后 后 
消息 中 会 有 消息 头 来 指明 消息 压缩 类 型 ， 故 在 Consumer 消息 解压 是 透明 的 ， 无 须 指定 
compressed. topics; 如 果 要 压缩 消息 ， 这 里 指定 哪些 Topic 要 压缩 消息 ， 默 认为 empty, 
表示 全 压缩 


compression. codec 


表 15-5 常用 Consumer 2X consumer. properties 配置 
配置 名 称 功 能 


zookeeper. connect zookeeper 连接 服务 器 信息 
zookeeper 的 session 过 期 时 间 ， 默认 为 6000ms， 用 于 检测 消费 者 是 否 挂 掉 ， 当 消 费 


k zoj or. S 3881 le i =) . S ye Aft 4 s- er `> ` — Ig 
Zookeeper. session. Uimeoul MS | 者 挂 掉 后 ， 其 他 消费 者 要 等 待 该 指定 时 间 过 后 ， 才 能 检查 到 并 且 触 发 重新 负载 均衡 
group. id 指定 Consumer Group， 如 果 不 指 定 ，Kafka 默认 生成 
i 是 否 自 动 提 交 ， 这 里 提交 意味 着 客户 端 会 自动 定时 更 新 offset 到 zookeeper, A 
auto. commit. enable i 
rue 


auto. commit. interval. ms 


自动 更 新 时 间 ， 默 认为 60 ~ 1000ms 
如 果 zookeeper 没有 offset {A BK offset 值 超出 范 那么 就 给 一 个 初始 的 offset。 有 


auto. offset reset smallest, largest, anything 可 选 ， 分 别 表示 当前 最 小 的 offset、 当 前 最 大 的 offset, HO: 
常 ， 默 认为 largest 
consumer. timeout 如 果 一 段 时 间 没 有 收 到 消息 ， 则 抛 异 常 。 默 认为 -1 
fe date sees T 每 次 取 的 块 的 大 小 (BRIA 1024 x1024) ， 多 个 消息 通过 块 来 批量 发 送 给 消费 者 ， 指 
ee 定 块 大 小 可 以 指定 可 以 一 次 取出 多 少 消息 


queued. max. message. chunks 最 大 获取 多 少 块 缓存 到 消费 者 (默认 10) 
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15.3) Spark Streaming 整合 Kafka 


Te) 基本 架构 设计 流程 È 


Spark Streaming 是 一 个 可 扩展 、 高 吞吐 量 、 对 实时 流 式 数 据 有 容错 处 理 的 Spark 核心 
API, Spark Streaming 可 以 整合 多 种 数据 源 ， 如 Kafka, Flume, Twitter, ZeroMQ, Kinesis, 
TCP socket 等 ， 还 可 以 将 处 理 后 的 数据 放 和 人 各 种 文件 系统 、 数 据 库 及 实时 监控 图 表 中 。 本 节 
讲述 Kafka 和 Spark Streaming 的 整合 ，Spark Streaming 与 其 他 数据 源 整 合 架构 图 如 图 15-8 所 
示 ，Spark Streaming 处 理 数据 的 工作 流程 如 图 15-9 所 示 。 

(Kafka ) 
X 
Spark” 
Streaming 


图 15-8 Spark Streaming 与 其 他 数据 源 整合 架构 图 


输入 


数据 流 Spank) PAARE (opan ] 批 处 理 数据 
[一 一 | streaming [OCOD] Engine [OC 


15-9 Spark Streaming 处 理 数据 的 工作 流程 

下 面 为 扩展 阅读 内 容 。 

最 近 ，Spark1. 5.1 版 本 已 经 发 布 (详细 内 容 可 参考 Apache 的 JIRA)， 在 分 析 Spark 
Streaming 和 Kafka 的 整合 时 ， 先 来 回顾 一 下 Spark 的 核心 特性 。Kafka 的 核心 组 件 及 特性 已 
经 在 本 书 中 进行 了 详细 阐述 和 分 析 ， 遇 到 不 是 很 理解 的 知识 点 时 ， 可 以 翻阅 前 面 的 章节 。 

Spark Cluster : 一 个 Spark 集群 至 少 包含 一 个 Worker 节点 。 

Worker Node : 一 个 工作 节点 可 以 执行 一 个 或 者 多 个 Executor。 

Executor : Executor 就 是 一 个 进程 ， 负 责 在 一 个 Worker 节点 上 启动 应 用 ， 运 行 Task 执行 
计算 ， 存储 数据 到 内 存 或 者 磁盘 上 ， 每 个 Spark 应 用 都 有 自己 的 Executor， 一 个 Executor 拥 
有 一 定数 量 的 cores ， 也 被 叫做 “slots”， 可 以 执行 指派 给 它 的 Task. 

Job : 一 个 并 行 的 计算 单元 ， 包 含 多 个 Task。 在 执行 Spark action (如 save, collect) 时 
产生 ,在 log 中 可 以 看 到 这 个 词 。 

Task : 一 个 Task 就 是 一 个 工作 单元 ， 可 以 发 送 给 一 个 Executor 执行 ， 每 个 Task 占用 父 
Executor 的 一 个 slot (core) 。 

Stage : 每 个 Job 都 被 分 隔 成 多 个 彼此 依赖 ， 人 们 称 之 为 Stage 的 Task (类 似 MapReduce 
中 的 Map 和 Reduce Stage) 。 

共享 变量 : 普通 可 序列 化 的 变量 复制 到 远程 各 个 节点 ， 在 远程 节点 上 的 更 新 并 不 会 返回 
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到 原始 节点 ， 因 为 需要 共享 变量 。Spark 提供 了 两 种 类 型 的 共享 变量 ， 

( Broadcast 变量 : 通过 SparkContext. broadcast (v) 创建 ， 只 读 。 

@) Accumulator; 累加 器 ， 通 过 SparkContext. accumulator (v) 创建 ， 在 任务 中 只 能 调用 
add 或 者 + 操作， 不 能 读 取 值 ， 只 有 驱动 程序 才 可 以 读 取 值 。 > 

Receiver; Receiver 长 时 间 (可 能 7 x 24 小 时 ) 运行 在 Executor 上 。 每 个 Receiver 负责 
一 个 Input DStream (例如 一 个 读 取 Kafka 消息 的 Input Stream ) 。 每 个 Receiver， 加 上 Input 
DStream 会 占用 一 个 core/slot. 

Input DStream : 一 个 Input DStream 是 一 个 特殊 的 DStream， 将 Spark Streaming 连接 到 一 
个 外 部 数据 源 来 读 取 数 据 。 

T A 5 as Sa EE — = Get N 
消息 消费 者 ( Consumer) 设计 一 一 基于 Receiver 方法 ) 

Apache Kafka 是 一 个 分 布 式 、 分 区 、 可 复制 的 提交 日 志 服务 的 发 布 订 阅 消 息 架 构 ， 怎 样 
通过 配置 Spark Streaming 来 接收 Apache Kafka 上 的 数据 呢 ? 上 一 小 节 已 经 对 Apache Spark 
Streaming 和 Kafka 整合 的 框架 流程 进行 了 详细 阐述 ， 下 面 对 Apache Spark Streaming 和 Kafka 
整合 方法 进行 详细 分 析 和 阐述 。Spark Streaming 已 经 实现 并 提供 了 两 种 方法 来 与 Apache Kaf- 
ka 集成 ， 第 一 种 方法 是 ， 基 于 Receiver 和 Kafka 的 高 级 API 来 实现 ; 第 二 种 方法 是 ， 不 使 用 
Receiver， 直 接 用 Kafka 的 低级 API 来 实现 。 第 二 种 方法 在 Apache Spark 中 的 1.3 版 本 中 出 
现 ， 并 体现 了 比较 好 的 性 能 。 这 两 种 方法 有 着 不 同 的 编程 模型 、 性 能 特征 及 语义 特征 ， 将 对 
这 两 种 方法 进行 详细 介绍 。 

基于 Receiver 实现 的 方法 主要 是 通过 Receiver 来 接收 数据 ， 其 中 Receiver 是 用 Kafka 的 
高 级 消费 API 实现 的 。 对 于 所 有 的 Receivers ， 先 从 Kafka 接收 数据 ， 之 后 通过 Receiver 存储 
在 Spark 的 executor 中 ， 最 后 Apache Spark Streaming 启动 任务 来 处 理 这 些 数据 。 

在 Apache Spark Streaming 的 默认 配置 下 ， 在 任务 执行 失败 的 情况 下 ， 基 于 Receiver 实现 
的 方法 会 出 现 丢 失 数据 的 情况 ， 为 了 确保 零 数 据 丢 失 ， 我 们 的 在 Apache Spark Streaming 中 ， 
另外 加 一 个 WAL (Write Ahead Logs) 功能 ， 这 种 基于 WAL 容错 的 设计 方案 已 经 在 Spark 
1. 2 版 本 中 实现 。 

从 Kafka 中 接收 到 的 数据 ， 使 用 WAL 功能 ， 并 同步 日 志 信 息 到 分 布 式 文件 系统 (比如 : 
HDFS) 中 ， 这 样 即 使 Apache Spark Streaming 任务 执行 出 错 ， 也 能 从 WAL 中 实现 所 有 数据 
恢复 。 

在 Apache Spark Streaming 与 Apache Kafka 整合 中 ， 其 中 的 核心 类 入 口 是 Apache Spark 
Streaming 实现 的 KafkaUtils 类 ，KafkaUtils 类 中 包含 很 多 createStream( ) 方 法 ， 这 些 方 法 主要 
是 从 Apache Kafka 的 Brokers 获取 消息 ， 之 后 创建 Apache Spark Streaming 的 输入 流 。KafkaU- 
tils 类 的 createStream ( ) 方 法 又 要 用 到 核心 类 KafkalnputDStream 和 DirectKafkalnputDStream , 
其 中 KafkalnputDStream 类 是 使 用 Apache Kafka 的 The High Level Consumer API 实现 的 ， 
DirectKafkaInputDStream 类 是 使 用 Apache Kafka 的 Low Level Consumer (Simple Consumer) API 
实现 的 ， 这 两 个 类 实际 上 就 是 分 别 对 应 上 面 提 及 的 Apache Spark Streaming 的 两 种 方法 实现 。 

基于 Receiver 实现 的 Apache Kafka 和 Apache Spark Streaming 整合 方法 ， 也 是 用 KafkaU- 
tils. createStream( ) 方 法 来 创建 Apache Spark Streaming 的 输入 流 的 ， 其 中 核心 逻辑 实现 可 以 参 
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考 KafkalnputDStream 类 ， 这 里 先 概 要 总 结 相 关注 意 点 与 实现 细节 。 


o 细节 一 : Apache Kafka 中 的 Topic 分 区 与 Apache Spark Streaming 生成 的 RDDs 分 区 没 
有 关联 。 因 此 使 用 KafkaUtils. createStream ( ) 方法 来 增加 Apache Kafka 中 Topic 的 数 
量 ， 仅 仅 是 增加 了 线程 数量 来 消费 Apache Kafka 的 Topic， 其 中 接收 这 些 数据 的 
Receiver 还 是 一 个 。 换 句 话 说， 在 基于 Receiver 实现 的 Apache Kafka 和 Apache Spark 
Streaming 整合 方法 中 ， 使 用 KafkaUtils. createStream( ) 方 法 增加 Apache Kafka 中 Topic 

的 数量 ， 并 不 会 增加 Apache Spark Streaming 并 行 处 理 数据 的 能 
e 细节 二 : 可 以 通过 Apache Kafka 中 的 Groups 和 Topics 来 创建 多 个 Kafka 输入 DStre- 
ams， 同 时 这 些 Apache Kafka 中 的 Groups 和 Topics 数据 ， 可 以 用 多 个 Receiver 来 并 行 

接收 。 

e 细节 三 : 如 果 你 启用 了 WAL (Write Ahead Logs) 功能 ， 比 如 将 数据 的 日 志 信 息 写 入 

到 HDFS 文件 系统 中 ， 这 里 要 通过 KafkaUtils. createStream( ) 方 法 修改 输入 流 的 存储 级 
别 为 StorageLevel. MEMORY_AND_DISK_SER, 

对 于 上 述 细 节 ， 如 果 读 者 对 Apache Kafka 中 的 Topic, partitions, parallelism 几 个 概念 不 
熟悉 的 话 ， 可 能 比较 难 理解 ， 下 面 对 这 几 个 概念 再 加 以 解读 。 

Apache Kafka 将 数据 存储 在 Topic 中 ， 每 个 Topic 都 包含 了 一 些 可 配置 数量 的 partition, 
Topic 的 partition 数量 对 于 性 能 来 说 非常 重要 ， 而 这 个 值 一 般 是 消费 者 parallelism 的 最 大 数 
量 : 如 果 一 个 Topic 拥有 NN 个 partition ， 那 么 应 用 程序 最 大 程度 上 只 能 进行 N 个 线程 的 并 行 ， 
最 起 码 在 使 用 Kafka 内 置 Scala/Java 消费 者 API 时 是 这 样 的 。 

Consumer Group ， 它 是 逻辑 Consumer 应 用 程序 集群 范围 内 的 识别 符 ， 一 般 通 过 字符 串 进 
行 识别 。 同 一 个 Consumer Group 中 的 所 有 Consumer 将 分 担 从 一 个 指定 Apache Kafka 的 Topic 
中 的 读 取 任务 ， 同 时 ， 同 一 个 Consumer Group 中 所 有 Consumer 从 Topic 中 读 取 的 线程 数量 最 
大 值 ， 即 是 N (等 同 于 分 区 的 数量 ) ， 多 余 的 线程 将 会 闲置 。 

多 个 不 同 的 Apache Kafka Consumer Group 可 以 并 行 运 行 ， 同 一 个 Apache Kafka 的 Topic, 
可 以 运行 多 个 独立 的 逻辑 Consumer 应 用 程序 。 每 个 逻辑 应 用 程序 都 会 运行 自己 的 Consumer 
线程 ， 使 用 一 个 唯一 的 Consumer Group id 进行 区 分 。 而 每 个 应 用 程序 通常 可 以 使 用 不 同 的 
read parallelisms, 

上 面 的 逻辑 有 点 深奥 ， 这 里 用 一 些 简单 的 例子 来 对 上 面 的 逻辑 加 深 理 解 。 

假设 这 里 有 一 个 应 用 程序 使 用 一 个 Consumer 对 一 个 Apache Kafka Topic 进行 读 取 ， 这 个 
Topic 拥有 10 个 分 区 。 如 果 Consumer 应 用 程序 只 配置 一 个 线程 对 这 个 话题 进行 读 取 ， 那 么 
这 个 线程 将 从 10 个 分 区 中 进行 读 取 。 

但 是 如 果 配 置 5 个 线程 ， 那 么 每 个 线程 都 会 从 2 个 分 区 中 进行 读 取 。 

如 果 配 置 10 个 线程 ， 那 么 每 个 线程 都 会 从 1 个 分 区 的 读 取 。 

但 是 如 果 配 置 多 达 14 个 线程 。 那 么 这 14 个 线程 中 的 10 个 将 平分 10 个 分 区 的 读 取 工 
作 ， 剩 下 的 4 个 将 会 被 闲置 。 
通过 上 面 的 例子 ， 读 者 应 该 比较 清楚 地 了 解 到 Consumer Group, Apache Kafka Topic, 
Read Parallelisms 之 间 的 关系 。 

但 是 上 面 这 些 例子 在 现实 应 用 中 ， 顺 序 执行 时 〈 不 断 配置 线程 数量 ) ， 会 触发 Apache 
Kafka 中 的 再 平衡 事件 ， 在 Apache Kafka 中 ， 再 平衡 是 个 生命 周期 事件 (lifecycle event) ， 在 
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Consumer 加 入 或 者 离开 Consumer Group 时 都 会 触发 再 平衡 事件 ,为 了 对 Apache Kafka 中 的 再 
平衡 事件 深入 理解 ， 这 里 继续 进行 解析 一 下 。 

假设 应 用 程序 使 用 Consumer Group id 为 “AQing”， 并 且 从 1 个 线程 开始 ， 这 个 线程 将 从 
10 个 分 区 中 进行 读 取 。 在 运行 时 ， 逐 渐 将 线程 从 1 个 提升 到 14 个 。 也 就 是 说 ， 在 同一 个 Con- > 
sumer #1, parallelism 突然 发 生 了 变化 。 训 无 疑问 ， 这 将 造成 Apache Kafka 中 的 再 平衡 。 
一 旦 在 平衡 结束 ，14 个 线程 中 将 有 10 个 线程 平分 10 个 分 区 的 读 取 工 作 ， 剩 余 的 4 个 将 会 
被 闲置 。 因 此 初始 线程 以 后 只 会 读 取 一 个 分 区 中 的 内 容 ， 将 不 会 再 读 取 其 他 分 区 中 的 数据 。 

在 基于 Receiver 实现 的 方法 中 ，Apache Kafka 的 Topic 分 区 与 Apache Spark RDDs 分 区 没 
有 关联 ， 而 基于 这 种 方法 的 Apache Spark Streaming 中 的 KafkalnputDStream (又 称 为 Kafka jÆ 
接 需 ) 使 用 了 Kafka 的 The High Level Consumer API 实现 ， 这 意味 着 在 Apache Spark Stream- 
ing 中 为 Apache Kafka 设置 read parallelism 将 拥有 两 种 策略 。 

策略 一 : Input DStream 的 数量 ， 因 为 Spark 在 每 个 Input DStream 都 会 运行 一 个 receiver 
( =task) ， 这 就 意味 着 使 用 多 个 input DStream 将 跨 多 个 节点 并 行进 行 读 取 操作 ， 因 此 ， 这 里 
寄 希 望 于 多 主机 和 NIC, 

策略 二 : Input DStream 上 的 消费 者 线程 数量 ， 一 个 receiver ( = task) 将 运行 多 个 读 取 
线程 。 这 也 就 是 说 ， 读 取 操 作 在 每 个 core/machine/ NIC 上 将 并 行 执 行 。 

会 发 现 这 两 种 策略 实际 上 是 前 面 细节 一 和 细节 二 描述 的 具体 化 。 实 际 上 ， 在 生产 中 第 一 
种 策略 更 有 效 ， 因 为 从 Apache Kafka 中 读 取 数 据 通常 情况 下 会 受到 网 络 /NIC 限制 ， 也 就 是 
说 ， 在 同一 个 主机 上 运行 多 个 线程 不 会 增加 读 的 吞吐 量 。 但 是 有 时 候 从 Apache Kafka 中 读 取 
也 会 遭遇 CPU 瓶 贷 。 然 而 第 二 种 策略 ， 多 个 读 取 线程 在 将 数据 推送 到 Block 时 会 出 现 锁 
oe Ft 

为 了 便于 用 代码 的 角度 理解 ， 先 看 策略 一 这 种 基于 Input DStream 的 数量 策略 并 行 读 取 
Apache Kafka 上 的 消息 实例 ， 代 码 如 下 : 


1. val numInputDStreams =5 


2. val kafkaDStreams = (1 to numInputDStreams). map | _ => KafkaUtils. createStream(...) | 


在 上 述 代码 中 ， 建 立 了 5 个 input DStream， 因 此 从 Apache Kafka 中 读 取 的 工作 将 分 担 到 
5 个 核心 上 ， 即 5 个 主机 /NIC。 所 有 Input Stream 都 是 Consumer Group 的 一 部 分 ， 而 Apache 
Kafka 将 保证 Topic 的 所 有 数据 可 以 同时 对 这 5 个 input DSream 可 用 。 换 句 话说， 这 种 协同 的 
input DStream 设置 及 基于 Consumer Group 的 行为 ， 是 由 Apache Kafka API 提供 ， 通 过 Kaf- 
kaInputDStream 完成 。 

再 来 看 策略 二 ， 这 种 基于 Input DStream 上 的 消费 者 线程 数量 策略 并 行 读 取 Kafka 上 的 消 
息 实例 ， 代 码 如 下 : 


1. val consumerThreadsPerlnputDstream =3 
2. val topics = Map( "zerg. hydra" -> consumerThreadsPerInputDstream ) 


3. val stream = KafkaUtils. createStream( ssc , kafkaParams , topics,... ) 


在 这 段 代 码 中 ， 将 建立 一 个 单一 的 input DStream， 它 将 在 同一 个 receiver/task 上 运行 3 
个 消费 者 线程 ， 因 此 可 以 理解 为 在 同一 个 core/machine/NIC 上 对 Kafka topic Consumer Group 
进行 消息 读 取 。 其 中 KafkaUtils. createStream ( ) 方 法 被 重 载 ， 因 此 这 里 有 一 些 不 同方 法 的 特 
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征 。 在 这 里 ， 会 选择 Scala 派生 以 获得 最 佳 的 策略 。 

为 了 更 好 地 理解 上 面 的 代码 ， 我 们 先 看 看 input DStream 和 RDD 的 关系 ，input DStream 
创建 RDD 分 区 ， 并 由 KafkaInputDStream 从 Apache Kafka 中 读 取 相应 的 数据 信息 到 Block。 其 
中 KafkaInputDStream 建立 的 RDD 分 区 数量 由 batchInterval / spark. streaming. blockInterval 决 
定 ， 而 batchInterval 则 是 数据 流 拆 分 成 batche 的 时 间 间 隔 ， 它 可 以 通过 StreamingContext 的 一 


个 构造 函数 参数 设置 。 

基于 第 一 种 多 输入 流 的 策略 ， 这 些 Consumer 都 是 属于 同一 个 Consumer Group， 它 们 会 
给 Consumer 指定 分 区 。 这 样 一 来 则 可 能 导致 分 区 ， 再 均衡 的 失败 ， 系 统 中 真正 工作 的 消费 
者 可 能 只 会 有 几 个 。 为 了 解决 这 个 问题 ， 可 以 把 再 均衡 尝试 设置 的 非常 高 ， 然 后 ， 将 会 碰 到 
另 一 个 问题 一 如果 receiver 宕 机 (OOM， 或 者 硬件 故障 )， 这 将 停止 从 Kafka 接收 消息 。 

出 现 这 种 情况 ， 最 直接 的 办 法 就 是 在 与 上 游 数据 源 断 开 连 接 或 者 一 个 receiver 失败 时 ， 
重新 启动 流 应 用 程序 。 但 是 ， 这 种 解决 方案 可 能 并 不 会 产生 实际 效果 ， 即 使 应 用 程序 需要 将 
Apache Kafka 配置 选项 auto. offset. reset 设置 到 最 小 ， 由 于 Spark Streaming 中 一 些 已 知 的 bug, 
可 能 导致 流 应 用 程序 发 生 一 些 你 意 想不到 的 问题 ， 具 体 情 况 请 参考 相关 文档 。 

对 于 Input DStream 上 的 消费 者 线程 数量 策略 ， 前 面 也 进行 了 详细 的 分 析 ， 其 中 的 线程 
数量 可 以 通过 KafkaUtils. createStream( ) 方法 来 进行 参数 设置 ， 同 时 ，Apache Kafka 中 input 
topic 的 数量 也 可 以 通过 这 个 方法 的 参数 指定 ， 有 具体 情况 还 得 根据 实际 应 用 场景 进行 分 析 ， 
这 些 常 见 的 Apache Spark Streaming 问题 ， 一 些 是 由 当下 Apache Spark 中 存在 的 一 些 限 制 引 
起 的 ， 一 些 则 是 由 于 当下 Kafka input DSream 的 一 些 设置 造成 的 。 
通过 上 面 的 分 析 发 现 ， 如 果 将 策略 一 和 策略 二 进行 归并 ， 将 会 展现 更 好 的 效果 ， 参 考 代 
码 如 下 所 示 : 


1. val numDStreams =5 

2. val topics = Map( " zerg. hydra" -> 1) 

3. val kafkaDStreams = (1 to numDStreams). map | _ => 

4 KafkaUtils. createStream(ssc ,kafkaParams,topics,... ) | 


从 上 面 这 部 分 代码 可 以 看 出 ， 其 中 建立 了 5 个 input DStream， 它 们 每 个 都 会 运行 一 个 消 
费 者 线程 。 如 果 Consumer Group Topic 拥有 5 个 分 区 (或 者 更 少 ) ， 如 果 对 系统 的 吞吐 量 有 
比较 高 的 要 求 的 话 ， 那 么 这 将 是 进行 并 行 读 取 的 最 佳 途径 。 

以 上 内 容 对 基于 Receiver 实现 的 方法 的 核心 原理 、 优 缺点 、 性 能 分 析 进 行 了 详细 地 分 析 
及 展现 ， 下 面 用 基于 Receiver 实现 的 Apache Kafka 和 Apache Spark Streaming 整合 方法 来 实现 
单词 计数 的 Apache Spark Streaming 应 用 程序 。 参 考 代码 如 下 。 


1. object KafkaWordCount | 

Ds def main( args: Array[ String] ) | 

3. if (args. length < 4) | /输入 参数 的 提示 判断 

4. System. err. println( " Usage: KafkaWordCount < zkQuorum > < group > < topics > 
<numThreads >" ) 

Ds System. exit(1) 
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Ts // 将 获得 的 输入 参数 放 到 变量 args 中 

8. val Array(zkQuorum, group ,topics ,numThreads ) = args 

9. /设置 Spark 的 参数 配置 属性 ,这 里 将 Spark 应 用 名 命名 为 ”KafkaWordCount” 

10. val sparkConf = new SparkConf( ). setAppName(" KafkaWordCount" ) 

11. // 创 建 SteamingContext 实例 ,并 设置 处 理 数 量 数据 的 时 间 间 隔 为 2s 

12. val ssc = new StreamingContext( sparkConf,Seconds(2) ) 

13. //iX HEX} checkpoint 进行 了 设置 ,主要 是 保存 数据 修改 后 , 当前 的 状态 ,以 防 断 电 后 内 存 数 
TEER 

14. ssc. checkpoint(" checkpoint" ) 

15. //ik' Topic Consumer 信息 

16. val topicMap = topics. split(","). map( (_,numThreads. toInt) ). toMap 

17. /通过 从 Kafka Brokers 中 获取 的 数据 来 创建 mput stream 

18. val lines = KafkaUtils. createStream( ssc , zkQuorum group ,topicMap ). map(_. 2) 

19. 人 /以 行为 单位 ,以 空格 为 占 位 符 进行 划分 单词 

20. val words = lines. flatMap(_. split(" ")) 

21. ”// 这 里 使 用 的 Spark Streaming 的 window 操作 ,其 中 Minutes (10) 表示 window 窗口 时 间 间 
隔 ,一 般 是 监听 间隔 的 倍数 ;其 中 Seconds (2) 是 指 window 的 滑动 时 间 间 隔 , 也 不 需 是 监 


听 间 隔 的 倍数 
22. val wordCounts = words. map(x => (x,1L) ) 
23. . reduceBy KeyAndWindow(_ +_,_— _, Minutes( 10) ,Seconds(2) ,2) 
24. /单词 输出 
25. wordCounts. print( ) 
26. // 启动 StreamingContext 实例 
Dla ssc. start( ) 
28. ssc. awaitTermination( ) 
29. } 
30E 


该 应 用 程序 创建 了 一 个 KafkaWordCount 类 ， 代 码 进行 了 详细 注释 ， 其 中 的 代码 已 经 在 
Apache Spark 的 发 布 包 中 ， 读 者 只 需要 搭建 好 Apache Spark 的 集群 环境 ， 运 行 如 下 命令 ， 就 
可 以 了 查看 Apache Spark Streaming 的 实时 流 统计 展现 效果 。 人 参考 命令 如 下 : 


$ bin/run - example \ 
org. apache. spark. examples. streaming. KafkaWordCount z0001 ,z0002 ,z0003 \ 


my — consumer — group topicl ,topic2 1 


这 里 对 上 面 命令 参数 的 含义 稍微 进行 说 明 . 


参数 一 : zoo01 ，zoo02 ，zoo03 ， 建 立 初始 化 连接 Apache Kafka 集群 的 host/port 列表 ， 
这 些 列表 不 需要 包含 所 有 的 Apache Kafka 集群 服务 器 。 因 为 一 旦 连接 Apache Kafka 集 
群 ， 就 可 以 通过 Apache Kafka 集群 上 的 配置 ， 获 取 所 有 的 Apache Kafka 的 服务 器 。 
参数 二 : my - consumer - group, Apache Kafka 消费 组 的 名 称 。 

参数 三 : topicl, topic2, Apache Kafka 的 Topic， 可 以 是 一 个 ， 也 可 以 多 个 ， 多 个 之 
HARNES MF. 

参数 四 : 1， 最 后 一 个 参数 表示 ，Apache Kafka 消费 者 可 用 的 线程 数量 。 
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这 里 已 经 基于 Receiver 实现 了 Apache Kafka 与 Apache Spark Streaming 的 整合 ， 并 实现 了 
实时 流 单词 的 统计 。 如 果 读 者 想 更 加 深入 了 解 基于 Receiver 实现 的 Apache Kafka 和 Apache 
Spark Streaming 整合 方法 ， 也 可 以 详细 阅读 Spark Streaming 中 的 KafkalnputDStream 类 的 源码 。 


消息 消费 者 ( Consumer ) 设计 一 基于 No Receiver 方法 ) 


在 Apache Kafka 与 Apache Spark Streaming 整合 中 ， 为 了 能 确保 更 强 的 端 到 端 映射 关系 ， 
在 Apache Spark 1.3 版 本 中 ， 实 现 了 基于 No Receiver 的 Apache Kafka 与 Apache Spark Stream- 
ing 整合 方法 ， 这 种 方法 在 开发 Apache Spark Streaming 实时 流 应 用 程序 时 ， 核 心 类 入 口 也 是 
Apache Spark Streaming 实现 的 KafkaUtils 类 ， 之 后 通过 KafkaUtils 中 的 createStream( ) 方法 来 
获取 Apache Kafka 的 Brokers 消息 数据 ， 之 后 形成 Apache Spark Streaming 的 输入 流 。 在 cre- 
ateStream( ) 方 法 中 ， 会 调用 另外 一 个 核心 类 DirectKafkaInputDStream， 这 个 类 是 基于 No Re- 
ceiver XM AY #9 HG, DirectKafkalnputDStream 类 是 使 用 Apache Kafka 的 Low Level Consumer 
(Simple Consumer) API 实现 的 。 

与 基于 Receiver 实现 的 方法 相 比 ， 这 种 基于 No Receiver 来 实现 Apache Kafka 与 Apache 
Spark Streaming 整合 方法 ， 能 周期 性 地 查询 Apache Kafka 中 每 个 Topic 分 区 的 最 新 offset 偏 移 
量 ， 并 能 据 此 定义 每 个 批 处 理 中 的 偏 移 范围 。 当 Apache Spark Streaming 启动 任务 来 处 理 数 
据 的 时 候 ， 使 用 Apache Kafka 低级 Consumer API 来 读 取 Kafka 上 面 的 偏 移 范围 ， 就 像 在 文件 
系统 中 读 取 文件 一 样 简单 方便 。 基 于 No Receiver 实现 Apache Kafka 与 Apache Spark Streaming 
整合 方法 在 Apache Spark 1.3 版 本 中 提供 了 Scala API 和 Java API, 在 Apache Spark 1. 4 版 本 
中 提供 了 Python API, 

与 基于 Receiver 实现 的 Apache Kafka 和 Apache Spark Streaming 整合 方法 相 比 较 ， 基 于 
No Receiver 来 实现 Apache Kafka 与 Apache Spark Streaming 整合 方法 有 如 下 优点 : 

简化 并 行 : 基于 No Receiver 方法 已 经 不 需要 创建 多 个 input Kafka， 之 后 再 将 这 多 个 
input Kafka 进行 union 操作 。 直 接 通 过 directStream, Apache Spark Streaming 可 以 创建 和 A- 
pache Kafka Consumer 分 区 数量 一 样 多 的 RDD 分 区 数量 。 这 样 Apache Spark Streaming 就 能 并 
行 地 读 取 Kafka 上 的 数据 ， 这 就 实现 了 Kafka 分 区 和 RDD 分 区 一 一 对 应 的 关系 ， 这 种 方式 也 
变 得 非常 容易 理解 和 调整 。 

更 高 的 效率 : 为 了 达到 零 数 据 丢 失 ， 基 于 Receiver 实现 的 Apache Kafka 和 Apache Spark 
Streaming 整合 方法 引入 了 WAL (Write Ahead Log) 功能 ， 这 实际 上 是 一 种 非常 低 效 的 方法 ， 
因为 数据 流 过 的 时 候 ， 数 据 要 保存 两 次 ， 一 次 保存 到 Kafka 中 ， 一 次 通过 WAL 功能 保存 到 
某 个 文件 系统 (比如 HDFS) 中 。 但 是 基于 No Receiver 来 实现 Apache Kafka 与 Apache Spark 
Streaming 整合 方法 ， 通 过 不 使 用 Receiver 来 消除 了 这 个 问题 ， 从 而 变 得 更 加 高 效 ， 因 为 不 
需要 再 写 日 志 到 某 个 文件 系统 。 消 除 这 个 问题 的 根本 原因 在 于 ，Apache Spark Streaming 能 使 
用 Apache Kafka 低级 消费 API 来 读 取 Kafka 上 面 的 偏 移 范 围 ， 而 不 是 通过 Zookeeper 来 获取 。 
因此 ， 只 要 Kafka 上 的 数据 存在 ， 消 息 数据 就 能 从 Kafka 上 进行 恢复 。 

Exactly - once semantics : 也 称 为 准确 一 次 性 语义 ， 在 基于 Receiver 实现 的 Apache Kafka 
和 Apache Spark Streaming 整合 方法 中 ， 是 使 用 Kafka 高 级 API 来 实现 这 种 方法 的 ， 然 而 
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Consumer 的 offset 被 存储 在 Zookeeper 中 。 这 是 Kafka 非常 经 典 的 消费 数据 的 模式 ， 这 个 模式 
必须 的 使 用 WAL (Write Ahead Log) 功能 ， 才 能 确保 零 数据 丢失 。 但 是 这 种 方式 还 是 会 出 
现在 一 些 任务 失败 时 ， 一 些 记 录 会 被 消费 两 次 。 这 主要 是 Apache Spark Streaming 接收 真实 
的 数据 和 Zookeeper 跟踪 offset 不 一 致 性 造成 的 。 因 此 ， 基 于 No Receiver 来 实现 Apache Kaf- 
ka 与 Apache Spark Streaming 整合 方法 ， 使 用 的 是 Apache Kafka 低级 Consumer API 来 实现 ， 
并 不 在 使 用 Zookeeper 来 跟踪 Consumer offset ， 而 是 直接 基于 checkpoints 通过 Apache Spark 
Streaming 来 追踪 offset， 这 样 就 消除 了 Apache Streaming 和 Zookeeper/Kafka 的 不 一 致 性 。 
此 ， 即 使 任务 运行 失败 ， 每 条 记录 都 能 被 Apache Spark Streaming 高 效 准 确 一 次 性 地 被 接收 。 
为 了 在 输出 结果 获得 准确 一 次 性 语义 ， 在 数据 输出 操作 中 ， 保 持 数据 到 另外 的 数据 存储 系统 
中 必须 是 知 等 的 ,或 者 以 原子 事务 的 方式 保存 数据 的 结果 和 数据 偏 移 量 。 

基于 No Receiver 来 实现 Apache Kafka 与 Apache Spark Streaming 整合 方法 优点 很 多 , 但 
是 不 能 通过 Zookeeper 来 更 新 offset， 因 此 基于 Zookeeper 的 Kafka 监控 工具 将 失去 了 作用 。 然 
而 ,你 自己 可 以 用 基于 No Receiver 方法 来 获取 offset， 并 自己 来 更 新 Zookeeper 中 的 offset, 

上 面 对 基 于 No Receiver 来 实现 Apache Kafka 与 Apache Spark Streaming 整合 方法 进行 了 
总 结 分 析 ， 现 在 我 们 就 使 用 这 种 方法 也 来 实现 单词 计数 的 Apache Spark Streaming 应 用 程序 。 
参考 代码 如 下 : 


object DirectKafkaWordCount | 
def main( args; Array[ String] ) | 
if (args. length < 2) | /输入 参数 的 提示 判断 


System. err. println(s 


| < brokers >is a list of one or more Kafka brokers 
| <topics >is a list of one or more kafka topics to consume from 


won 


1 
2 
3 
4 
Do | Usage ; DirectKafkaWordCount < brokers > < topics > 
6 
7 
8 
9 


. stripMargin ) 

10. System. exit( 1) 

11. o} 

12. ”// 将 获得 的 输入 参数 放 到 变量 args 中 ,其 中 brokers 参数 时 值 Kafka 中 的 Brokers ,其 中 topic 
参数 是 指 Kafka 用 来 消费 的 Topics 

13. val Array( brokers ,topics) = args 

14. // 设 置 Spark 的 参数 配置 属性 ,这 里 将 Spark 应 用 名 命名 为 “DirectKafkaWordCount” 

15. val sparkConf = new SparkConf( ). setAppName( "DirectKafkaWordCount" ) 

16. // 创建 StreamingContext 实例 ,并 设置 处 理 数量 数据 的 时 间 间 隔 为 2s 


17. val ssc = new StreamingContext( sparkConf, Seconds (2) ) 
18. // 使 用 传 过 来 的 brokers 和 topics 参数 ,来 创建 direct kafka stream 
19. val topicsSet = topics. split(" ," ). toSet 


20. val kafkaParams = Map| String, String | ( " metadata. broker. list" -> brokers) 
21. // 通过 从 Kafka Brokers 中 获取 的 数据 来 创建 input stream 


22 val messages = KafkaUtils. createDirectStream | String, String, StringDecoder, StringDe- 


coder | (ssc ,kafkaParams , topicsSet ) 
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23. // 获取 某 行 的 数据 


24. // Get the lines, split them into words, count the words and print 


25. val lines = messages. map(_. _2) 

26. // 将 每 行 的 数据 ,通过 空格 进行 划分 

27. val words = lines. flatMap(_. split(" ") ) 

28. // 对 单词 进行 统计 

29. val wordCounts = words. map(x => (x,1L) ). reduceByKey(_+_) 
30. // 将 统计 的 结果 进行 输出 


31. wordCounts. print( ) 

32. // 开 始 启动 StreamingContext 实例 ,计算 实际 上 是 从 这 里 开始 的 
33. ssc. start( ) 

34. ssc. awaitTermination( ) 

35. } 

36. } 


该 应 用 程序 创建 了 一 个 DirectKafkaWordCount 类 ， 代 码 进 行 了 详细 注释 ， 其 中 的 代码 已 
经 在 Apache Spark 的 发 布 包 中 ， 读 者 只 需要 搭建 好 Apache Spark 的 集群 环境 ， 运 行 如 下 命 
S, 就 可 以 了 查看 Apache Spark Streaming 的 实时 流 统 计 展 现 效果 ， 即 对 单词 的 个 数 进行 统 
计 。 参 考 命令 如 下 。 


$ bin/run - example streaming. DirectKafkaW ordCount brokerl - host:port,broker2 — host; port \ 
topicl , topic2 
这 里 对 上 面 命令 参数 的 含义 稍微 进行 说 明 : 
参数 一 : brokerl - host; port, broker2 - host; port， 实 际 上 就 是 Apache Kafka 集群 服 
务 器 ， 也 称 为 Broker， 这 里 只 服务 器 的 名 称 加 端口 号 ， 多 个 服务 器 之 间 用 逗号 隔 开 。 
BR. topicl , topic2, Apache Kafka 的 Topics, 可 以 是 一 个 ， 也 可 以 多 个 ， 多 个 之 
HARNES MF. 


这 里 基于 No Receiver 实现 了 Apache Kafka 与 Apache Spark Streaming 整合 方法 ， 实 现 了 
实时 流 单词 统计 ， 如 果 读 者 想 更 加 深入 了 解 基 于 No Receiver 实现 的 Apache Kafka 和 Apache 
Spark Streaming 整合 方法 ， 也 可 以 详细 阅读 Apache Spark Streaming 中 的 DirectKafkalnputD- 
Stream 类 的 源码 。 
通过 上 面 对 基于 Receiver 来 实现 Apache Kafka 与 Apache Spark Streaming 整合 方法 和 基于 
No Receiver 来 实现 Apache Kafka 与 Apache Spark Streaming 整合 方法 分 别 实现 了 单词 统计 的 
应 用 程序 ， 通 过 这 两 个 方法 比较 发 现 ， 基 于 Apache Spark Streaming 自 带 的 整合 Kafka 的 方法 
来 开发 实际 需求 的 实时 流 处 理应 用 变 得 非常 简单 ， 用 户 不 需要 再 实现 Apache Kafka 数据 流 到 
Apache Spark RDDs 的 细节 过 程 ， 开 发 中 只 需要 调用 KafkaUtils. createStream ( ) 方法 ， 就 可 以 
实现 想 要 的 功能 需求 ， 从 这 一 点 也 说 明 Spark 的 强大 和 简洁 ， 当 然 ， 读 者 对 底层 的 实现 原 
理 比 较 了 解 和 熟悉 的 话 ， 在 排除 问题 、 设 计 更 优 的 业务 实现 方案 、 性 能 调 优 时 会 有 很 大 
的 帮助 。 
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55) 消息 生产 者 (Producer) 设计 


Kafka 与 Spark Streaming 整合 的 实践 内 容 ， 主 要 是 将 Kafka 作为 Spark Streaming 的 数据 > 
源 ， 即 Spark Streaming 怎样 用 Kafka 高 效 获取 数据 ， 也 就 是 利用 Kafka 的 Consumer 功能 ， 这 
一 部 分 已 在 上 一 小 节 进 行 详细 阐述 ,但 是 在 有 些 文献 中 ,也 有 从 Spark 中 的 数据 写 到 Kafka 
的 情景 ， 这 里 详细 讲解 一 下 : 

写 人 数据 到 Katka 需要 从 foreachRDD 输出 操作 进行 ， 通 用 的 输出 操作 者 都 包含 了 一 个 功 
能 函数 ， 让 每 个 RDD 都 由 Stream 生成 。 这 个 函数 需要 将 每 个 RDD 中 的 数据 推送 到 一 个 外 部 
系统 ， 比 如 将 RDD 保存 到 文件 ,或 者 通过 网 络 将 它 写 入 到 一 个 数据 库 。 需 要 注意 的 是 ， 这 里 
的 功能 函数 将 在 驱动 中 执行 ， 同 时 其 中 通常 会 伴随 RDD 行为 ， 它 将 会 促使 流 RDDs 的 计算 。 

其 中 “功能 函数 是 在 驱动 中 执行 ” ， 也 就 是 Kafka Producer 将 在 驱动 中 进行 ， 也 就 是 说 
“功能 函数 是 在 驱动 中 进行 评估 ”。 当 使 用 foreachRDD 从 驱动 中 读 取 数据 时 ， 实 际 过 程 将 变 
得 更 加 清晰 。 想 详细 了 解 foreachRDD 读 外 部 系统 中 的 一 些 常 用 推荐 模式 ， 请 阅读 Spark 的 
Output Operations on DStreams 文档 ， 也 可 以 阅读 重用 Kafka Producer 实例 ， 这 个 实例 是 通过 
Apache Commons Pool 工具 来 实现 ， 通 过 Producer pool 来 跨 多 个 RDDS/batches， 这 个 Producer 
pool 通过 Broadcast variable 来 提供 给 tasks, 

需要 注意 的 是 ，Spark Streaming 每 分 钟 都 会 建立 多 个 RDDs， 每 个 RDD 都 会 包含 多 个 分 
区 ， 因 此 无 须 为 Kafka Producer 实例 建立 新 的 Kafka 生产 者 ， 更 不 用 说 每 个 Kafka 消息 。 上 
面 的 步 又 将 最 小 化 Kafka Producer 实例 的 建立 数量 ， 同 时 也 会 最 小 化 TCP 连接 的 数量 ， 通 常 
由 Kafka 集群 确定 。 可 以 使 用 这 个 Pool 设置 来 精确 地 控制 对 流 应 用 程序 可 用 的 Kafka Producer 
实例 数量 。 

为 了 更 好 地 理解 上 面 的 原理 ， 这 里 通过 一 个 “并 行 地 从 Kafka topic 中 读 取 Avro - enco- 
ded 数据 ， 将 结果 数据 写 人 到 Kafka” 的 示例 来 熟悉 基于 Spark Streaming 应 用 程序 要 旨 ， 该 
示例 的 实际 流程 如 下 : 

1) 使 用 了 一 个 最 佳 的 read parallelism， 每 个 Kafka 分 区 都 配置 了 一 个 单线 程 input 
DStream , 

2) 并 行 化 Avro - encoded 数据 到 pojos 中 。 

3) 然后 将 pojos 并 行 地 写 到 binary。 

4) 序列 化 可 以 通过 Twitter Bijection 执行 。 

5) 通过 Kafka 生产 者 Pool 将 结果 写 回 一 个 不 同 的 Kafka topico 

上 面 示例 的 实际 流程 的 详细 参考 代码 如 下 所 示 : 


1 
f 


1 val kafkaStream = | 

2 val sparkStreamingConsumerGroup = " spark — streaming — consumer — group" 

3: val kafkaParams = Map( 

4. " zookeeper. connect" -> "zookeeperl :2181", // 定义 Zookeeper 的 连接 信息 
5 "group. id" -> "spark - streaming — test" , // 定 义 Group. id 的 名 称 

6 " zookeeper. connection. timeout. ms" -> "1000" ) /定义 Zookeeper 连接 超时 时 长 
7 valinputTopic = "input — topic" // 定义 Topic 名 称 
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val numPartitionsOfInputTopic =5 // 定义 Topic 分 区 数量 
// 通过 从 Kafka Brokers 中 获取 的 数据 来 创建 input stream 


val streams = (1 to numPartitionsOfInputTopic) map | _ => 
KafkaUtils. createStream( ssc, kafkaParams , Map (inputTopic -> 1) ,StorageLevel. MEMORY _ 
ONLY_SER). map(_ . 2) 
| 
// 使 用 Apache Spark Streaming 的 union 操作 
val unifiedStream = ssc. union ( streams) 


val sparkProcessingParallelism =1 // 设置 Spark Stream 进程 的 并 行 数量 


unifiedStream. repartition ( sparkProcessingParallelism ) 


// 定义 一 个 全 局 变量 " counters" ,使 用 SparkContext 实例 来 跟踪 Streaming 实时 流 应 用 


val numInputMessages = ssc. sparkContext. accumulator(0L," Kafka messages consumed" ) 


val numOutputMessages = ssc. sparkContext. accumulator(OL," Kafka messages produced" ) 
// 这 里 使 用 一 个 广播 变量 来 共享 Kafka Consumer W , 主要 用 来 从 Spark 到 Kafka 写 数据 
val producerPool = | 
val pool = createKafkaProducerPool( kafkaZkCluster. kafka. brokerList,outputTopic. name ) 
ssc. sparkContext. broadcast ( pool ) 
} 
// 使 用 广播 变量 来 实现 Avro Injection( 序列 化 可 以 通过 Twitter Bijection 执行 ) 


val converter = ssc. sparkContext. broadcast( SpecificAvroCodecs. toBinary| Tweet ] ) 


// 从 Apache Spark Streaming 任务 中 定义 真实 的 数据 流 
kafkaStream. map | 
case bytes => 
numInputMessages += 1 
// 用 Avro 序列 化 的 数据 转换 为 Bean 对 象 
converter. value. invert( bytes) match | 
case Success( tweet) => tweet 
case Failure(e) => // 如 果 转 换 失败 就 将 其 进行 忽略 
| 
|. foreachRDD( rdd => | 
rdd. foreachPartition( partitionOfRecords => | 
val p = producerPool. value. borrowObject( ) 
partitionOfRecords. foreach | 
case tweet: Tweet => 
// 将 Bean 对 象 反 转 为 Avro 二 进 制 格式 (序列 化 与 反 序列 化 操作 ) 
val bytes = converter. value. apply (tweet) 
// 发 送 二 进 制 数据 到 Kafka 中 
p. send( bytes ) 


numOutputMessages += 1 


#157 Kafkahy ASCE 


47. } 

48. producerPool. value. returnObject( p) 
49. }) 

50. }) 

51. // 运 行 Apache Spark Streaming 实例 
52. ssc. start( ) 

53h, ssc. awaitTermination( ) 


E 小 结 


本 章 讲解 了 Kafka 的 应 用 实战 程序 设计 ， 其 中 包括 Katka 集群 搭建 ， 以 及 Kafka 依赖 的 
Zookeeper 集群 搭建 ， 详 细 记 录 了 集群 搭建 的 步骤 和 命令 ， 并 对 一 些 参 数 的 配置 和 使 用 进行 
了 详细 的 解析 ; 之 后 用 一 个 实例 讲解 了 怎样 用 Kafka API 来 开发 生产 者 和 消费 者 ， 并 对 其 中 
开发 的 细节 进行 了 详细 的 阐述 ， 并 对 这 些 常 用 的 配置 参数 进行 了 总 结 ; 最 后 讲解 了 Spark 和 
Kafka 的 整合 实例 ， 在 讲解 中 ， 对 Kafka 及 Spark 中 的 一 些 机 制 进 行 了 详细 的 分 析 。 通 过 本 
章 的 学 习 ， 自 己 可 以 灵活 运用 Kafka API 开发 自己 的 生产 者 和 消费 者 ， 并 能 将 Kafka 消息 队 
列 灵 活 地 运用 和 部 署 到 实际 的 大 数据 架构 环境 中 。 目 前 ，Kafka 还 在 不 断 地 发 展 和 成 熟 ， 大 
家 可 以 踊跃 加 入 Kafka 社区 ， 提 供 自己 觉得 比较 好 的 解决 方案 ， 为 Kafka 的 发 展 贡献 一 份 
力量 。 
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附录 Kafka 集群 server. properties 
配置 文档 


# Licensed to the Apache Software Foundation (ASF) under one or more 

# contributor license agreements. See the NOTICE file distributed with 

# this work for additional information regarding copyright ownership. 

# The ASF licenses this file to You under the Apache License, Version 2.0 

# (the" License"); you may not use this file except in compliance with 

# the License. You may obtain a copy of the License at 

# 

# http: //www. apache. org/licenses/ LICENSE — 2. 0 

# 

# Unless required by applicable law or agreed to in writing, software 

# distributed under the License is distributed on an" AS IS" BASIS, 

# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 
# See the License for the specific language governing permissions and 

# limitations under the License. 

# see kafka. server. KafkaConfig for additional details and defaults 
HHHHHHHHHHHHHHHHHHHHHHHHHHHHH Server Basics ##HHHEHHHHHHHHEHHHHEHAHHHH HHT 
# The id of the broker. This must be set to a unique integer for each broker. 

broker. id =0 

JABBER Socket Server Settings ####HHHHHHHHEHH EHH HEH HAH HH 
# The port the socket server listens on 

port = 9092 

# Hostname the broker will bind to. If not set, the server will bind to all interfaces 
host. name = master 

#host. name = localhost 

# Hostname the broker will advertise to producers and consumers. If not set, it uses the 
# value for" host. name" if configured. Otherwise, it will use the value returned from 
# java. net. InetAddress. getCanonicalHostName () . 

#advertised. host. name = < hostname routable by clients > 

# The port to publish to ZooKeeper for clients to use. If this is not set, 

# it will publish the same port that the broker binds to. 

#advertised. port = < port accessible by clients > 

# The number of threads handling network requests 


num. network. threads = 3 
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# The number of threads doing disk I/O 

num. io. threads = 8 

# The send buffer (SO_ SNDBUF) used by the socket server 

socket. send. buffer. bytes = 102400 

# The receive buffer (SO_ RCVBUF) used by the socket server > 
socket. receive. buffer. bytes = 102400 

# The maximum size of a request that the socket server will accept (protection against OOM) 
socket. request. max. bytes = 104857600 

FAH Log Basics #4HRHHEHEHAHAHHHHA HEHEHE 

# A comma seperated list of directories under which to store log files 

log. dirs = /home/hadoop/application/kafka_ 2. 11 -0. 8. 2. 1/kafkaLogs 

# The default number of log partitions per topic. More partitions allow greater 

# parallelism for consumption, but this will also result in more files across 

# the brokers. 

num. partitions = 1 

# The number of threads per data directory to be used for log recovery at startup and flushing at shutdown. 
# This value is recommended to be increased for installations with datadirs located in RAID array. 
num. recovery. threads. per. data. dir = 1 

JERE Log Flush Policy #44HHAHHAHHHHAA HAHA 

# Messages are immediately written to thefilesystem but by default we only fsync ( ) to sync 

# the OS cache lazily. The following configurations control the flush of data to disk. 

# There are a few important trade — offs here; 

# 1. Durability; Unflushed data may be lost if you are not using replication. 

# 2. Latency; Very large flush intervals may lead to latency spikes when the flush does occur as there will be a 
lot of data to flush. 

# 3. Throughput; The flush is generally the most expensive operation, and a small flush interval may lead toex- 
ceessive seeks. 

# The settings below allow one to configure the flush policy to flush data after a period of time or 

# every N messages (or both) . This can be done globally and overridden on a per — topic basis. 

# The number of messages to accept before forcing a flush of data to disk 

#log. flush. interval. messages = 10000 

# The maximum amount of time a message can sit in a log before we force a flush 

#log. flush. interval. ms = 1000 

JERE Log Retention Policy ##HHHAHHHHHHHHHEHHAH HHH HHH 

# The following configurations control the disposal of log segments. The policy can 

# be set to delete segments after a period of time, or after a given size has accumulated. 

# A segment will be deleted whenever * either * of these criteria are met. Deletion always happens 
# from the end of the log. 

# The minimum age of a log file to be eligible for deletion 

log. retention. hours = 168 

message. max. bytes = 5242880 

default. replication. factor =3 

replica. fetch. max. bytes = 5242880 
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# A size — based retention policy for logs. Segments are pruned from the log as long as the remaining 

# segments dont drop below log. retention. bytes. 

#log. retention. bytes = 1073741824 

# The maximum size of a log segment file. When this size is reached a new log segment will be created. 
log. segment. bytes = 1073741824 

# The interval at which log segments are checked to see if they can be deleted according 

# to the retention policies 

log. retention. check. interval. ms = 300000 

# By default the log cleaner is disabled and the log retention policy will default to just delete segments after their re- 
tention expires. 

# If log. cleaner. enable = true is set the cleaner will be enabled and individual logs can then be marked for log com- 
paction. 

log. cleaner. enable = false 

JRA HHH HHH Zookeeper #HHHHHHHHHE HHH HHH HEHEHE 

# Zookeeper connection string (see zookeeper docs for details) . 

# This is a comma separated host; port pairs, each corresponding to a zk 

# server. e.g." 127.0.0.1: 3000, 127.0.0.1: 3001, 127.0.0.1; 3002" . 

# You can also append an optionalchroot string to the urls to specify the 

# root directory for all kafkaznodes. 

#zookeeper. connect = localhost; 2181 

zookeeper. connect = master; 2181, workerl; 2181, worker2; 2181 

# Timeout in ms for connecting to zookeeper 


zookeeper. connection. timeout. ms = 6000 
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